联系我们
首页  >>  新闻动态  >>  CNCC2021

多模态人机对话技术——面向未来的智能助手

2021-12-30

(作者:梁志斌)


第十八届中国计算机大会(CNCC)于20211216-18日在深圳召开。1216日上午,中国科学技术大学陈恩红教授主持了技术论坛“多模态人机对话技术——面向未来的智能助手”。本次论坛邀请了四位产学研专家从终端应用、语音交互、技术落地等方面汇报分享了多模态技术的最新发展及技术挑战。论坛包括“个性化语音合成与分析”、“面向亿级用户的小布助手对话式AI算法系统实践与思考”、“开放域角色化对话关键技术”及“百度在多模态语音交互领域的技术创新和产业落地”四个报告。

中国科学院自动化研究所陶建华教授指出通过多模态技术训练得到个性化语音合成系统,只需要少量声源数据即可模拟某个人的语气和音色。陶教授还现场播放了同样的文字在不同的语气、音色设定下的合成语音,介绍了该系统在教育、生活、娱乐等场景的广泛应用。

OPPO小布智能中心的NLP与对话算法负责人杨振宇介绍了小布助手对话式AI算法系统的发展,还指出在全新的智能终端系统上以“机智”、“有趣”、“温暖”为理念的对话式AI需要融合多模态技术所面临的算法问题,分析了未来构建亿级用户目标面临的挑战。

百度语音首席架构师贾磊讲解了基于conformer的声学建模技术创新,叙述了从技术难题到结合transformer再到提出新架构解决问题的过程。之后介绍了融合多模态技术得到的结合人脸识别唇动的复杂噪声场景下的语音识别交互技术,并展示了该技术在车载、银行智能柜台、智能音箱等多个场景的落地情况。

哈尔滨工业大学张伟男副教授则从角色属性、说话风格和背景知识等方面描述了多模态技术如何满足人们对人机对话产品多样化的需求,让对话系统能在不同场景、面向不同类型用户时自适应地调整对话的角色化参数,讲解了开放域角色化对话的关键技术和研究趋势,还演示了在西安以秦始皇兵马俑为角色的人机对话场景。

多模态技术如语音、视觉、表情、唇动、手势、触觉等在人机交互技术发展中的作用越发重要,在实际应用场景中为用户提供更生动形象、准确并富有个性的智能服务。论坛报告展示了多模态人机对话技术在多种场景下的应用情况,相信在不久的将来人机对话技术会在人们的生活中更频繁地出现,实现更加人性、更加生动有趣的人机交流。

诚聘英才
友好链接
业务咨询及参观访问:0755-86576085    0755-86576086    地址:深圳市南山区笃学路9号
国家超级计算深圳中心(深圳云计算中心)  ©2014-2020  粤ICP备10220126号