请选择 进入手机版 | 继续访问电脑版
手机版
 找回密码
 立即注册

讯飞智能语音先锋者:等到人机交互与人类交流一样自然时,真正的智能时代就

来源: m1717 2020-5-22 16:26:38 显示全部楼层 |阅读模式
163004j8mt9nd95i959wsy.jpg
163004czqgvg0gjekx9jtv.jpg

受访者 | 刘聪
记者 | 夕颜出品 | CSDN(ID:CSDNnews)
「AI 技能生态论」 人物访谈栏目是 CSDN 发起的百万人学 AI 倡议下的紧张构成部分。通过对 AI 生态顶级大咖、创业者、行业 KOL 的访谈,反映其对于行业的思索、将来趋势的判定、技能的实践,以及发展的履历。


本文为 「AI 技能生态论」系列访谈的第十六期,剖解科大讯飞语音与盘算机视觉互通技能,以及对多模态与人机交互将来趋势预判。


百万人学 AI 你也有份!本日出发点击阅读原文报名「2020 AI开辟者万人大会」,利用优惠码“AIP211”,即可免费得到代价299元的大会在线直播门票一张。限量100张,先到先得!


当今,如果把语音技能和盘算机视觉技能单拎出来,两者无论是学术研究照旧应用,都可以说已经到了相对成熟的阶段,小得手机上各种 App,大到航空航天科研,语音和视觉技能已经渗出到人类生存的方方面面。但如果是把二者联合起来呢?以致是把笔墨、语音、视觉、动作、情况等多种情势联合起来,举行更深条理的人机交互呢?这就是所谓的多模态交互,在技能专家的假想中,多模态交互可以或许充实模仿人与人之间的交互方式,让人与呆板之间实现真正意义上的互动更进一步。

多模态交互技能与应用的研究现状怎样?各人都在做着哪些积极,实验着突破人与呆板之间的隔阂?本日,我们将透过这方面的专家——科大讯飞 AI 研究院实行院长刘聪,与他的技能发展蹊径一起,一探这些题目的毕竟。


163005yt1liabefmemui1d.jpg

硕博连读,被保送至讯飞语音实行室的学霸



从履历上来看,刘聪的个人履历和发展蹊径非常简单,他从 2001 年考入中国科学技能大学电子信息工程系,2005 年就被保送(硕博连读)至电子信息工程系其时相助的讯飞语音实行室(现为“语音及语言信息处置惩罚国家工程实行室”),专业方向是“信号与信息处置惩罚”。在这里,他专攻的方向是语音辨认。

硕博连读期间,刘聪得到了去微软亚洲研究院和加拿约莫克大学访问学习各半年的机遇。2010 年,外洋学子学成归国,并顺遂拿到了博士毕业证。

实在早在 2007 年,刘聪就已经以练习生的身份参加科大讯飞,除了举行一些单点技能的研究之外,也举行中文语音辨认体系的搭建工作。2010年,博士毕业他后正式参加讯飞,并担当语音辨认方向的研究主管。

那段时间,以深度学习为代表的第三次人工智能海潮席卷而来,语音辨认核心技能和实际体系的效果都有了很大的发展空间。毕业后的几年,刘聪一方面领导团队连续寻求语音辨认核心技能和功能的业界领先,一方面共同奇迹部和相干产物部分在各个行业方向积极凌驾技能鸿沟,使得语音辨认等相干技能在越来越多的场景下到达可用以致好用,讯飞最早期投入应用的语音产物背后,根本上都有刘聪及其团队的功劳。

2014 年,担当科大讯飞研究院副院长,负责整个语音辨认大方向的研发工作,同时开始负责图文辨认、医学影像、视频分析等盘算机视觉方向的孵化和研发工作。


163005ut0o4d6dvjkid0d5.jpg

实现语音辨认和盘算机视觉之间深度学习算法框架迁移,被评“35岁以下科技创新35人”



现在,讯飞 AI 研究院的研究方向诸多,包罗语音合成、语音辨认、语音评测、图文辨认、医学影像、呆板翻译、自然语言明白等多个子方向。

在这里,刘聪的第一个研究方向,就是将语音与盘算机视觉之间的深度学习算法买通。

为什么要做这个方向呢?


刘聪提及团队有这个想法的初志,是从技能应用的角度来看,简单来说,从语音到盘算机视觉,深度学习只是将处置惩罚的数据从一维的语音数据切换成了二维的图像数据,两者在技能上具备肯定的互通性。作为中国首批开展深度神经网络语音辨认研究的企业,以为这个方向可以或许推进深度学习算法在感知智能与认知智能方面的进步;另一方面,作为同属感知智能范畴的语音和盘算机视觉,在语音上取得了深度学习算法的乐成后,将深度学习算法在盘算机视觉上推进也就变成了团队的内涵诉求。末了,联合科大讯飞人工智能产物在市场上反响不错,产物也对核心技能提出了更高的要求,除了语音之外,对盘算机视觉的需求也在加大,因此买通语音与盘算机视觉之间深度学习算法,更好地满足产物的要求,也就变得很自然了。


163006flapv8am8t82dzmj.jpg

(图片已获授权,右为刘聪)


在智能语音处置惩罚范畴取得肯定效果后,2014 年,刘聪领导团队正式转入盘算机视觉范畴。从“听”到“看”,固然呆板的感官发生了变革,但依附在语音辨认与深度学习范畴的积累,在技能层面为二者搭起了一座桥梁。

2015 年,刘聪和团队联合语音特性,对基于盘算机视觉范畴最常用的卷积神经网络 CNN 结构举行了针对性的重构和优化,提出深度全序列卷积神经网络 DFCNN 框架,教呆板学会以“看语谱图”的方式来举行语音辨认。

163010cwhdx08n6kfg3olf.jpg

DFCNN 框架


DFCNN 直接将语音转化为一张语谱图像作为输入,以时域和频域分别作为图像的两个维度,然后通过卷积层和池化层的组合,对整句语音输入信号举行建模。该方法突破了传统语音辨认只能对语音短时幅度谱举行有效建模的束缚,筹划了全序列卷积神经网络结构,实现了对语音长时幅度谱和时域波形的同时建模,有利于进步建模精度。

2015 年,刘聪和团队提出了这个将语音辨认和盘算机视觉之间深度学习算法框架买通的 DFCNN,那这之后,相沿这一技能蹊径,讯飞又举行过新的实验来进步语音辨认服从。在技能研发迭代期间,不可制止地会遇到一些困难,踩过一些坑。

刘聪说到,以现在的视角来看,语音辨认可以分为声学和语言分开建模的传统语音辨认和声学语言连合建模的端到端语音辨认。在提出 DFCNN 时,语音辨认照旧以声学语言分开建模为主,DFCNN 就是一种声学模子,紧张用来对发音举行建模。

在 DFCNN 之后,端到端建模思绪渐渐成为新的研究热门,并有逾越传统语音辨认框架,成为新一代语音辨认体系的趋势。以基于留意力机制的编码器解码器的端到端建模为代表,端到端语音辨认框架包罗对声学信息举行高层抽象的编码器部分和声学语言连合建模的解码器部分,编码器就相称于传统语音辨认中的声学模子,借助于 DFCNN 强大的声学建模本领,刘聪团队研发的基于 DFCNN 的端到端语音辨认体系得到了比传统语音辨认更好的辨认效果,这是 DFCNN 的乐成延展。


然而,整个新体系的研发过程并不是一挥而就。刘聪说,固然端到端建模思绪开端于呆板翻译,技能上已有肯定的积累,但是具体到语音辨认又面临很多新的题目,最典范的莫过于大多数语音辨认体系要求的实时辨认题目,这是端到端语音辨认模子要落地实际产物必须要办理的题目,呆板翻译中的端到端模子并不能满足这一点。

面临这一题目,刘聪团队筹划了一种新的单调递增式的留意力算法,使得模子可以看到局部的语音数据即可举行辨认,而不须要比及整句语音都来了才举行辨认,从技能上办理了新体系落地实际产物的末了停滞。

关于智能语音和盘算机视觉,以及将声音、视觉、触觉等人类感官联合起来的多模态信息处置惩罚、语音/呆板翻译等炙手可热的研究热门,刘聪还与 CSDN 分享了他对这些话题的洞见与见解,下面,我们就来逐一分析这位资深技能人对将来技能方向的预判。


163011u6gt8g4t6ipu9uig.jpg

多模态信息处置惩罚与融合将会是大趋势



起首是各人关注的多模态技能。随着语音和盘算机视觉技能日渐成熟,但是在一些应用场景很好地落地仍然有一些停滞,比如 AI 同传效果由于情况等因素很难保障和专业翻译职员的效果等效,于是在翻译范畴出现了多模态方向的研究,比如在语音辨认的同时在 PPT 上利用视觉技能,将声音和画面联合起来,这不但更符合人类的风俗,同时可以辨认精确率,使转达的信息更加精确。

这种将声音、视觉、触觉等人类感官联合起来的思绪,与刘聪正在举行的语音与盘算机视觉之间的互通是一回事吗?

刘聪以为,从狭义上来讲,可以说不是一回事,两者出发点有所差别。最早讯飞做盘算机视觉与语音辨认之间的互通,是深度学习算法应用场景的自然延展与推进,雷同的技能从语音辨认的乐成转入到在视觉范畴举行实验。

而多模态研究的鼓起,更多地是由于很多实际题目只用以往的纯语音大概纯视觉的方法很难很好地办理题目,只有更靠近人处置惩罚题目的方式,给到更多的输入信息才气把题目办理。这是两者出发点上的一些区别,因此可以说两者不是一回事。

但从广义上来讲,又可以说这两者就是一件事,正是由于有很多实际题目只靠单一的语音大概视觉无法办理,产物需求对技能提出了更高的要求,因此促使研究职员必须改进核心技能,多模态研究就是一个很好的技能演进方向,从这个角度来看,两者又可以说是同一回事。
        
谈到多模态技能的发展,刘聪以为,以往无论是学术界照旧产业界,都更多的把研究重点聚焦在单个模态的研究上,近些年随着呆板感知的软硬件技能、通讯技能以及运算本领等技能的发展,单个模态的研究在一些场景的范围性也渐渐凸显出来,比如语音辨认范畴著名的“鸡尾酒会题目”,在这些场景种多模态技能相比单模态技能上风更为显着,这也更符合我们人类的感知特性,因此,他判定多模态信息的处置惩罚以及融合将会是大的趋势。

163011okd9ql7kszsxb3q8.jpg



这也是讯飞现在在做的,基于多模态辨认技能使得高噪、多人、远场等复杂场景下的语音辨认题目有了更好的办理方案,基于多模态合成技能的假造形象现在已在天生在媒体、客服等范畴广泛应用,人机交互拥有了更好的体验。以往各范畴(语音、视觉、自然语言)的研究在一些技能和方法论上具有通用性,在开始一个新范畴的研究时,这些技能和方法论的积累可以或许为快速迁移提供很大的资助,而多模态研究自己更关注差别模态信息之间的融合。

别的,刘聪还以为,多模态技能的发展将会围绕应用层、核默算法层以及硬件层三个层面睁开,在应用层的研究相对较多,也取得了很多不错的效果,而核默算法层以及硬件层的探索现在相对做的还不敷,都是值得将来深入研究的方向,比如差别模态信息直接怎样更有效的互补,怎样更深条理的融合,差别的使命须要哪些模态的信息,以及差别模态的感知信息怎样更好的和认知相联合。


163011v2dzgzzdbavwowgl.jpg

基于视觉出现的语音交互是将来方向



如上文所说,多模态研究将会是将来研究的重点,多模态交互也自然将成为将来人机交互实现突破的关键点。

现在来说,基于视觉出现的语音交互是各人研究的紧张方向之一,刘聪也以为这是一个值得深入的研究点,

他以为,在有大屏的情况下,呆板显现的内容通过屏幕(视觉),输入以语音交互为主。但这并不是说“基于视觉出现的语音交互”会完全代替“基于视觉出现的触摸交互”,但它会分流一大部分热度。想象一下,当我们坐在一个大屏前,用“基于视觉出现的语音交互”所得到的东西跟在手机上特长辅导的体验是不一样的。讯飞现在已经推动了智能语音技能在各种场景中的深入应用,面向智能家居、智能家电、智能玩具等范畴提供远场辨认、高自然度个性化语音合成、AIUI 等人机交互办理方案和服务。


163011bme48z15tpo9yme8.jpg

呆板翻译若想进步,还须要在这几方面继承探索



在智能语音范畴,各人对于语音/呆板翻译的爱好只增不减。刘聪以为,随着深度学习技能的不绝演进和大数据的不绝积累,语音和呆板翻译等技能在很多场景上已经到达好用的水平,但是事物的发展总是当我们办理一个题目的时间,总会有一个新的题目等候我们去办理。以语音辨认为例,得益于深度学习和大数据,在安静场景下,讯飞语音输入法可以到达 98% 辨认率的水平,但是在高噪场景恶劣情况下效果要差很多。比如,在号称“史上最难语音辨认使命”国际语音辨认大赛 CHiME5 中,即便是作为冠军体系的科大讯飞在包罗多人语音稠浊、远场混响和噪声的恶劣语音情况下也只能到达 54% 的辨认率,与安静唤醒的 98% 相差甚远。
163012wj2mwlriiwminm4e.jpg


讯飞从最早把用户共同的语音输入法的听写辨认做到好用,到现在渐渐把更难的远场集会会议场景的转写辨认做到好用,技能总是在不绝地进步,困难也在不绝地被攻克。

“大概有一天,当我们把 CHiME 比赛场景也能做到好用的时间,真正的人工智能就快到来了,”刘聪照旧比力乐观的。

对于让人又爱又恨的呆板翻译,刘聪有着自己的思索与观点。

他总结,呆板翻译技能的发展履历了最早期基于规则的方法,到上世纪 90 年代初的统计呆板翻译,再到现在最新的神经呆板翻译技能,呆板翻译在口语、通用等场景的性能已经媲尤物类译员的翻译效果。但是呆板翻译若要取得更大进步,还须要在以下几个方面举行连续性的探索:


  • 多语种翻译,现在环球现存语言凌驾5000种,绝大多数的语言没有或仅有少少量平行语料,因此须要研究在数据量很少的情况下提供可用的多语种呆板翻译本领。
  • 呆板同传,这此中须要办理语音翻译中语言生齿语化表达、口音方言等引起的语音辨认错误等题目,同时在集会会议、演讲等场景,还须要思量到翻译的时延和效果平衡题目,制止延时过大影响用户的实际主观体验。
  • 行业翻译,针对差别的行业提供更加专业、精确的翻译将是将来呆板翻译发展的另一个关键技能。
  • 端到端语音翻译技能,与传统语音翻译接纳语音辨认体系和呆板翻译体系级联的方式差别,端到端语音翻译利用一个模子对语音到文本举行直接建模。当前端到端语音翻译由于数据量较少等缘故因由,与传统语音翻译方案另有肯定的差距,但其代表着更前沿的探索,代表着语音翻译将来的新思绪和新方向,也是现在我们研究的重点。

总的来说,呆板翻译应用市场规模在逐年稳步增长,呆板翻译技能越来越成熟,应用场景也越来越丰富。呆板翻译同语音辨认、图像辨认等联合产生的语音翻译、照相翻译等应用将不绝激活整个产业的活力,信赖在将来还会产生更多更有影响力的呆板翻译应用和服务。


163012i97sx6rhgvg8xhv8.jpg

放飞想象,将来人机交互方式另有哪些大概性?



恒久以来,有无数人都在苦苦探寻人与呆板之间互动交换的奥秘,科技日新月异发展至今,我们有了巨大的进步,但是相识得越深,越明白我们离这个目标相差得还很远。

将来,除了基于视觉出现的语音交互方式之外,还会有哪些大概的交互方式?人机交互范畴的技能生态会发生怎样的改变?

刘聪以为,人机交互方式将会越来越多样化以及多种差别方式的组合,在出现上会越来越丰富以及个性化。除了传统的视觉出现方式,还可以有基于更富有感情和个人特色的语音合成技能的语音出现方式,以及更自然的假造形象的拟人化视觉出现。

假造形象的表达方式也可以从口唇的表到达联合心情和身段姿态的感情表达,如许在交互上也更自然化人性化。

“长期来看,基于语音、视觉以及触摸多种模态信息的组合是趋势,不但须要理教学的内容,还须要举行用户的感情辨认以及基于视觉的围绕人的举动分析明白,包罗心情绪情、手势、体感等,让呆板与人类之间的交互像人类相互交换一样,”大概如刘聪所想,比及人机交互像人类相互交换一样自然的时间,真正的智能期间就真的来了。
【END】
163012z1uduuw0d2dtc2pq.jpg

163013sfqaq8cx3wux33hu.jpg
本日福利

遇见大咖



同样作为“百万人学 AI”的紧张构成部分,2020 AIProCon 开辟者万人大会将于 7 月 3 日至 4 日通过线上直播情势,让开辟者们一站式学习相识当下 AI 的前沿技能研究、核心技能与应用以及企业案例的实践履历,同时还可以在线参加出色多样的开辟者沙龙与编程项目。参加前瞻系列运动、在线直播互动,不但可以与上万名开辟者们一起交换,另有机遇赢取直播专属好礼,与技能大咖连麦。


门票限量大放送!本日出发点击阅读原文报名「2020 AI开辟者万人大会」,利用优惠码“AIP211”,即可免费得到代价299元的大会在线直播门票一张。限量100张,先到先得!快来动动手指,免费获取入会资格吧!


点击阅读原文,直达大会官网。

本文来自极酷区配资门户--www.jikuqu.com收集于网络整理
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
相关标签: CSDN
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册
广告