无需穿戴设备,“AI时空导游”安安“说走就走”,带你“瞬移”旅游景点,目及之处皆是美景、远观近瞧随心所欲,开启身临其境的沉浸式“云旅游”。根据不同场景,安安还能在甜美、端庄、酷辣造型中“无缝切换”,表情丰富、情感细腻、理解力强,是个很专业的AI导游。
这个AI能力“硬核”的虚拟导游,集成了“讯飞超脑2030计划”的多模感知、多维表达、深度理解等多项前沿技术,给人机交互带来全新的沉浸式体验,真人和虚拟人可以非常自然地“穿越”不同场景对话,在安徽合肥体育中心就能现场体验。
11月18日,2022科大讯飞全球1024开发者节正式启幕,下午的发布会上,科大讯飞AI研究院副院长高建清以“AI新纪元,讯飞超脑2030”为主题,解密“讯飞超脑2030计划”阶段性技术突破,一大波“预演未来”的创新应用将走入生活,让AI惠及每个人。
“无监督学习”新突破,“AI超脑”更懂知识
“支撑‘讯飞超脑2030计划’的发展,有两个关键算法亟待突破,无监督学习和知识推理。”高建清说,前者要实现实用化、场景化的预训练技术,后者要构建基于知识检索、决策以及融合的推理系统。
科大讯飞设计了基于无监督学习的预训练框架,并创新使用了少量有监督数据进行优化,大幅提升训练效率。
针对多模语音识别、情感识别等多模态任务,全新的预训练框架对音频、人脸等不同模态的输入“一视同仁”,利用其中内容、表情及身份等信息的关联性进行融合,可设计出不同的训练目标。而少量有监督数据构建码本,让训练机时下降八成,实现了实用化预训练。 在无监督学习的预训练算法框架下,讯飞开放了轻量化的中文语音、中英文多模态预训练模型,高建清说,“预训练模型支持语音识别、声纹识别、情感识别、多模态语音识别等多个任务,参数量远远少于业界公开的模型,但效果却达到了业界最优。”
在知识推理方面,以回答“面包在低温下会马上发霉吗”为例,机器要理解“低温变质慢”等常识,在引入海量知识的基础上,要用预训练模型进行知识重要性排序,也要融合知识与问题进行推理,才能与人畅聊“面包变质的二三事”。同时,提出了知识与问题融合的Across attention model,实现问题和知识之间的充分交互,从而实现更有效的知识推理。
此外,科大讯飞还探索将神经网络与符号推理相结合,实现了推理过程的可解释性。应用于小学平面几何题上,这个推理系统让AI答题的正确率从完全不可用,提升到了90%的水平,显著优于传统推理系统。
“唇形+语音”多模态感知,“唤醒”人机交互新模式
环境太吵、人声太多,语音交互怎么办?在“讯飞超脑2030计划”中,科大讯飞用“唇形+语音”的多模态语音增强技术,唤醒智能语音交互新模式。
“机器想更自然地与人类进行交互,需要通过听觉、视觉、语义以及各种传感器的组合去获取更多的有用信息,AI感知方式必然要从单模态发展到多模态,逐步拟人化。”高建清表示。
继“语音识别在多人讨论场景下效果做到70%”“多点噪声干扰场景做到了可用”之后,今年,科大讯飞挑战商场、医院、地铁等复杂场景,提出了全新的多模态语音增强与识别框架。结合视频信息输入,新技术可以利用人脸、唇形、语音等多模态信息的互补,将主说话人的干净人声从嘈杂背景环境中分离出来,显著提升开放场景的识别效果。
一个典型的场景是,当你在嘈杂的环境中通话,旁边其他人也在说话,搭载了多模感知技术的应用系统只“听”到你的声音,不受旁边嘈杂音干扰,从而非常顺利地完成沟通。
此外,科大讯飞还提出基于多元语义评价的“语音识别一体化”框架,在语音输入过程中,通过“语义纠错+语音识别”联合优化来提升语音识别的可懂度。“这一方案,从用户主观理解度层面有了极大改善,是真正站在用户体验的角度优化系统的一种方法”,高建清表示,这个算法主要解决“语音识别准确率高,但用户体验不好”的现实问题。
多情感多风格语音合成,虚拟人有温度有个性
如何让机器的声音媲美人类?这是AIGC领域需求量大、技术门槛高的难题。
高建清分享了科大讯飞在语音合成技术领域的新突破——多风格多情感合成系统SMART-TTS,语音合成从简单的信息播报“变身”具备喜怒哀乐情感的语音助手。
“系统充分利用了文本和语音的‘无监督预训练’,实现了从文本到声学特征、再到语音的端到端建模。”高建清介绍,SMART-TTS系统可提供“高兴、抱歉、撒娇、严肃、悲伤、困惑、害怕、鼓励、生气、安慰、宠溺”等11种情感,每种情感有20档强弱度不同的调节能力;也能提供声音的创造能力,如停顿、重音、语速等,可以根据自己喜好调节,真正实现了合成系统媲 美具备个性化特点的真人表达能力。
这是什么意思?现场播放的视频展示了SMART-TTS的多风格多情感语音合成能力:当你漫步林荫路,TA可以用字正腔圆的“播音腔”为你读新闻;当你结束一天工作准备入睡,TA可以轻声细语读为你散文;当你驱车去公司上班,TA可以用你最喜欢的歌手声音告诉你走哪条路不堵车;当你和家人一起观看纪录片,TA可以为纪录片不同人物配音。人机交互表达自然、情感饱满。目前,讯飞有声APP和讯飞开放平台都开放了SMART-TTS语音合成系统,开发者可以在讯飞有声直接下载体验,或在开放平台进行调用。
同样隶属于AIGC范畴,在声音和虚拟形象生成技术方面,科大讯飞实现了语义可控的声音、形象生成,语义驱动的情感、动作表达。比如:你输入“一头长发”,系统智能生成温柔大方的女性形象,声音端庄又不失甜美;输入“英俊潇洒”,生成有一些商务范的男生形象,声音略带磁性。高建清透露,讯飞开放平台将开放500个虚拟合成的声音。
此外,讯飞还实现了语音语义驱动的动作合成,通过对语音节奏、韵律体会和语义理解,虚拟人可以随时、流畅地切换动作,拥有更加自然的肢体语言。“与传统动作库相比,这套语义驱动的系统在动作拟人度及契合度方面,有明显的效果提升。”高建清表示。
创新交互系统认知技术,AI对话“滔滔不绝”
想让AI告诉你《独行月球》这部电影讲什么?没问题!今年,科大讯飞在交互系统的认知关键技术取得突破性进展,今年以来,依托科大讯飞建设的认知智能国家重点实验室相关团队在认知智能技术突破方面夺得3项国际冠军——在常识推理挑战赛CommonsenseQA 2.0中刷新机器常识推理水平世界纪录,在科学常识推理挑战赛OpenBookQA中以准确率94.2%的绝对优势夺冠,在常识推理挑战赛QASC中以多模型准确率93.48%、单模型准确 率92.07%夺冠,后两项比赛更是超越人类平均水平。
随着核心源头技术创新和系统性创新的持续突破,AI拥有更加“智慧”的语义理解和对话生成能力。“好的人机交互系统,在开放式的场景下要具备深度理解能力,并能了解交互对象从而发起主动的对话。”高建清说,围绕认知智能技术,讯飞实现了于语义图网络的开放场景语义理解,基于事理图谱的对话管理,基于知识学习的可控对话生成。
其中,面向开放世界的基于图表示的深度语义理解体系,增加了关系预测模块,形成信息丰富的语义完备的语义表示图,并将要素和关系都进行具体化,可以更精准的理解用户的意图,从而更准确回答用户问题,解决了AI对开放问题无能为力的痛点。目前,讯飞定义了1517个意图、近2000个事件,“通过这个框架的提出,我们在深度语义理解技术上又迈进了一大步。”
基于知识学习的可控对话生成框架,包括知识学习、大规模对话生成两个模块,可根据对话上下文,从知识库中检索到对话涉及的相关知识,结合外部知识及对话内容,生成更可控、更合理的回复。根据评估,基于知识学习的对话生成,相对于通用对话生成,平均得分从2.8提升到3.7分。
AI与运动“碰撞”,机器狗能上楼爬坡
在AI科技馆,四足机器狗“小黑”是妥妥的“流量”担当,不仅能走路、跑步、上台阶、攀爬、穿越复杂地形,还能握手、作揖,运动能力超强。这只机器狗,是“讯飞超脑2030计划”在运动智能方面的阶段性成果。
近年来,世界各大科技公司积极投身机器狗研发浪潮,但受限于算法技术,现阶段机器狗大部分仍处于“模仿动作”的初级仿生阶段,只具备基础的平地行走功能,在跨越台阶和爬坡场景下表现并不理想,为解决行业痛点,科大讯飞提出了基于多模态强化学习的运动控制算法。
“这一算法的重点是,通过无偏差信息输入的评价网络,指导带噪信息输入的动作网络训练,最终实现可预测目标关节位置和真实关节位置。”高建清介绍,得益于这些技术创新,讯飞机器狗在上楼、爬坡等方面的能力取得了显著提升,草地、沙地、石子路、枕木、圆盘等复杂地形也无所畏惧。
技术“立地”专业领域,用AI解决社会刚需命题
会上,高建清还分享了“讯飞超脑2030计划”的技术应用。
除了文章开头提到的沉浸式虚拟导游外,讯飞基于多模态交互、以及医疗认知技术,研发了一套抑郁症定量筛查系统。“可模拟心理医生的问诊思路进行交互设计,用户通过与机器聊天的方式即可初步实现病情的定量评估,筛查效果达到91.2%,超过业界最好的水平。”
目前,这一系统已经在北京安定医院等医疗机构进行了试点应用。“未来,基于定量筛查基础能力,我们将研发抑郁症筛查平台,向更多的学校推广,助力青少年的心理成长。”高建清表示。
作为“讯飞超脑2030计划”的阶段性成果,今年讯飞打造了多款专业虚拟人,分别用于客服、助理、招聘、财务、法务等行业的工作,他们都具有一个共同的特点——丰富的专业知识。通过深入学习行业知识,讯飞定制研发了多行业交互大脑,目前已为金融、电信、媒体等多行业提供专业虚拟人解决方案,为“数字经济”服务。
“在‘讯飞超脑2030计划’远景目标的牵引下,我们的AI科技树正不断发展壮大,既有以基础算法为代表的主干的发展,也有各技术体系的不断拓展。未来,我们会继续坚持以源头创新引领技术突破,以产业目标牵引技术发展,用开放的生态促进行业繁荣,和大家一起用人工智能建设美好世界。”高建清说。
原创文章,作者:新智派,如若转载,请注明出处:https://knewsmart.com/archives/91114