语音交互是怎么一回事,我为你找到了答案

头像vip
小鹏友
2021-07-03 21:09 · 鹏友大管家的小帮手

语音交互,特别是全场景语音,是智能座舱必不可少的其中一部分,对于小鹏而言,全场景语音化身为小P助手,通过OTA升级,不断提升语音交互的能力和水平,也体现了一台智能汽车的未来的可玩空间。


无论是互联网为时代,还是移动互联网时代,都是GUI交互为绝对主导,但随着AI的兴起,新的交互方式也随之热门起来。完善的智能交互,应该是多模态的,例如语音交互、手势交互,甚至通过眼神完成交互。对于当前阶段的智能汽车来说,天生就适合语音、手势等操作方式,而语音交互则更成熟,让驾驶员可以双手不离开方向盘,专注的开车,对安全驾驶来说,这很重要。


目前各大智能汽车厂商都重点投入到语音交互领域。那么好的语音交互体验,体现在哪些地方呢?我认为有3个方面:听、理解、表达。只有这3方面做好,语音交互系统才算健康。



完整的语音交互流程


听,就是能听清楚,听正确。这包括了硬件方面的回声消除、降噪,软件方面的合理的人声检测间隔,录音时长,语音识别模型等。目前主流的语音识别厂商,如国内占最大份额市场的讯飞,还有在吴恩达加盟后,识别率大幅提升的百度,还有专攻智车载领域的思必驰等,都号称识别率超过95%,但这些都是理想情况下的数据,实际环境中,由于环境的干扰等因素,会影响识别正确率。例如在车内环境中,空调风量、车内人声、风噪、胎噪,说话人口音、方言,多人声等,都会让识别率打折扣。这是整个语音交互的第一个环节,目前不少智能机器人在这个环节就让用户产生挫败感,这是入口,要让用户从一开始交互就感到快乐。


听,就像人的耳朵,这个环节没做好,拾音不正确,甚至不能拾音,那就等于人失聪。


那么,要让机器能听清、听正确,就得从源头开始做文章,这样才能保证为下一步能的语义理解提供干净的输入。



语音识别流程


首先,从最前端来说,需要至少双麦克风结合专门的DSP降噪芯片才能实现回声消除、降噪、声源定位的功能。获得相对干净的语音信号后,就需要语音识别软件进行语音到文字的转换。语音识别,从李开复提出的基于统计的无特定人语音识别开始,到现阶段的基于深度学习的方案,都早已达到商用级别。


而语音究竟如何变成文字?根据吴军《数学之美》的介绍,以中文语音识别为例子,可以简单理解为,语音经过一些列信号处理后,通过声学模型,把语音映射成对应的拼音序列,再通过语言模型,把拼音序列,转换为文字序列。语音识别系统经过大量标注预料的训练,能得到当前语音对应的最大概率拼音序列,同样也能得到当前拼音序列对应的最大概率的文字序列。


理解,就是听到用户语音,并识别为文字后,能正确理解用户表达的真实意图。目前各大厂商的语音识别,早已达到商用标准,但语义理解则还有大的进步空间,是整个智能语音交互中掉队的一环。


虽然是车载环境,但其实是一个开放域,就是说,在车上用户有可能问各种各样的问题,例如路况、天气、听歌、导航、控制车内设备、闲聊等。由于中文的复杂性,有些问题甚至是人也难以理解,就算目前备受追捧的深度学习,在语义理解领域也还没关键性突破,所以制约了语音交互的发展。目前各种智能音箱,智能助手,更多的是在特定领域的任务型对话机器人。



那么对于特定领域,机器怎么能正确识别到用户的真实意图呢?目前效果比较好的都是通过深度学习的方法对用户的话进行处理。简单来说,分为两个步骤,分别是:


领域识别:例如用户说“今天天气怎么样”,这是属于天气领域的问题。


意图识别及参数提取:上面问天气的例子,用户的真正的意图,是让机器人告知其今天的天气情况。其中隐含的参数有,日期(今天),地点(当前城市)


机器人识别到用户话语的领域、意图,及相应参数后,就可以进行具体日期的天气数据获取,并返回展示给用户。


表达,则是听清、理解正确后,怎么把结果展示给用户。通常包括UI交互、展示方式,以及语音合成(TTS,Text to Speech)。由于目前业界语义理解能力的局限,提高用户体验的更合理方式应该从交互方式上入手。虽然传统的GUI交互方式发展已经很成熟,从界面元件排布,字体字号,甚至颜色风格都有相应的成熟案例及标准,但CUI(Conversation User Interface对话用户界面,也有称为DUI、VUI)则是一个崭新的领域,没有现成的案例可以参考,更多的需要摸索和试错。此外,智能,还体现在机器不只是被动接受用户指令,还可以适当时候主动询问用户。例如,今天下暴雨了,系统判断常走的路线会塞车,则主动建议用户选择另外一条顺畅的路线。你责骂它的时候,它可以通过界面、灯光、声音等表达自己的情感。这样用户才觉得和自己交流的不是生硬冷冰冰的机器,而是有自我感受的助手。目前的智能语音产品,需要等一方说完,一方才能开始说话,或者用特定的打断词中断机器说话后,才能进行自己命令的表达。这与真实世界的对话方式是非常不同的,这也是目前语音交互让人觉得笨的原因之一。


结语:


一个语言交互系统,要称得上智能,语音合成的效果也显得很重要。目前大多数语音合成,都有比较明显的机械感,例如多音字发音不准,朗读平直,没有抑扬顿挫的情感,不会根据用户的情绪调整回复的音量、音调、音色等,让用户觉得是在跟一个机器在对话。与此相对的,智能的TTS应该是有情感的,能根据语境调整文字的朗读,而不是只有一个音调,能流利的、抑扬顿挫的表达。目前已经有厂商提供多种情感的TTS服务,而在今年5月的Google I/O大会上发布的Google Duplex技术,惊艳了大片同行,其中的全双工语音交互,非常接近真实的对话场景,其中的语音合成,也已经达到以假乱真的程度,有兴趣的同学自行搜索。


总的看来,虽然目前语音交互还存在诸多不足,但不可否认的是,它是未来发展的趋势。国内外众多巨头都跳进这个领域,企图拿到语音交互流量入口的船票。再给点时间,或许三五年后,很多日常事情,谈笑间便可解决。


原文转载自小鹏汽车知乎账号,作者 钟鸿飞 | 原小鹏汽车大数据资深工程师 


全场景语音


点击了解更多智能座舱

精彩评论 (2)
    头像
    是都教授呀
    智能语音部表示非常专业👍强强强
    2021-07-04 12:52
    头像vip
    小P助手
    我也忍不住要来凑一下热闹
    2021-07-04 15:55
    头像vip
    小鹏友
    感谢支持,期待更多更好的产品出来
    2021-07-04 15:53
    头像
    肥猫汤姆
    屏幕越来越多、联网设备越来越多、语音功能越来越多、按钮却越来越少。
    2021-07-04 11:30
    头像
    Leah猪
    这是真的小P语音么?
    2021-07-04 12:01
    头像
    Honey克孜
    吓到宝宝了,这是官方账号?
    2021-07-04 12:01
    头像
    大王路飞
    咦,小P语音来了?
    2021-07-04 12:00
    展开剩余评论
最新评论 (51)
    头像
    Boss傑
    能不能识别粤语
    2023-10-05 13:57
    头像
    Asimy
    为什么我经常碰到唤醒小p不成功的情况,是我讲话声音太小了吗?是我普通话不够标准吗?
    2022-05-11 21:16
    头像
    鹏友2439361
    所以配车能快一点吗
    2022-04-25 17:02
    头像
    小丁YYDS
    仪表盘显示车辆模型非常建议优化 流畅度优
    化一下 模型增加皮卡车 人物行走 摩托车
    小货车有了 还有越野车
    车道检测不是很准 车辆模型卡顿不准 没有
    一点流畅度可言 买小鹏为的是什么?科技
    感 你们得安排上啊 借鉴一下隔壁特斯拉的
    车辆人物模型 还有流畅度!!!
    2022-03-03 00:02
    头像
    一个暴躁车主
    所以配车能快点吗?能不能提供切换声音的功能?不说萝莉音了,整个正常声音也行啊,现在的机械合成音听着好难受
    2022-01-07 09:02
    头像
    阿云仔
    别在这里骗人了。
    2021-12-16 11:59
    头像
    军好
    小鹏的语音交流真强
    2021-10-06 22:52
    头像
    長崎武淺勝
    所以配车能快点吗
    2021-08-17 21:44
    头像
    伊璐笑瑶
    感觉有时候分辨的不是很清楚,不如手机或者天猫精灵
    2021-08-13 15:04
    头像
    IPS
    一个v
    2021-07-30 10:43
    头像
    Eva.D
    可以听得懂英语指令吗
    2021-07-05 09:40
    头像
    auzxb
    tts用的是哪个模型?太机械了。另外高德地图也很电。。
    2021-07-04 23:30
    头像
    浑水摸鱼
    希望越来越智能
    2021-07-04 22:46
    头像
    Chaos7
    专业专业~
    2021-07-04 17:51
    头像
    是都教授呀
    智能语音部表示非常专业👍强强强
    2021-07-04 12:52
    头像vip
    小P助手
    我也忍不住要来凑一下热闹
    2021-07-04 15:55
    头像vip
    小鹏友
    感谢支持,期待更多更好的产品出来
    2021-07-04 15:53
    头像
    jack.shi
    进化的太慢了,这个智能已经属于弱智级别了
    2021-07-04 12:43
    头像
    林叮咚
    越来越智能才是王道
    2021-07-04 11:30
    头像
    思思思密达💄
    这是个性化和人性化的趋势
    2021-07-04 11:30
    头像
    肥猫汤姆
    屏幕越来越多、联网设备越来越多、语音功能越来越多、按钮却越来越少。
    2021-07-04 11:30
    头像
    Leah猪
    这是真的小P语音么?
    2021-07-04 12:01
    头像
    Honey克孜
    吓到宝宝了,这是官方账号?
    2021-07-04 12:01
    头像
    大王路飞
    咦,小P语音来了?
    2021-07-04 12:00
    展开剩余评论
    头像
    Kevin3277
    不错
    2021-07-04 11:13
    加载更多精彩评论