精华
迎接全新小P之前,来聊一聊小P的父辈们

头像
京鹏汇🇨🇳古德茂宁
2021-07-22 12:36

Hello,大家好,我是古德茂宁。
最近小鹏P7又将迎来2.6.1版本的OTA升级,相信通过各种有趣的预热活动,大家应该也都知道了,我们可爱的语音助手小P将通过OTA升级获得一款全新的声音。还没听过的同学们戳视频感受一下。


不知道你们听完以后作何感想,反正古德茂宁的第一感受是:

那么接下来,我们拨云见日(往祖坟上刨),来聊一聊语音助手的前世今生。

其实我们现在习以为常的语音助手,从本质上来讲是一套对你所发出的语音进行识别并有所动作反应的系统。所以当我说最早的语音识别系统出现在计算机之前,你会惊讶吗?

没错,就是这款其貌不扬叫做Radio Rex的玩具狗,他生产于上个世纪20年代,这款玩具狗在被呼叫时可以弹出来,被普遍视为语音识别的鼻祖。这在当时可是个稀罕东西,曾风靡于整个欧洲上层社会。不过受制于当时的技术,语音识别也只能止步于此。

时间来到1946年,第一台计算机诞生。人们意识到,计算机能做到许多事情,而通过与计算机对话来指挥他做事,就是当时众多的美好设想之一。

计算机科学之父阿兰·图灵,就提出了一个“让人和机器交流……”的设想。尽管图灵并没有研究出实现的方法,却提出了一个简单却又实用的智能测试方法,也就是“图灵测试”。

而不久后的1952年,著名的贝尔实验室研制出一个叫“Audrey”的系统。这是世界上第一个可识别阿拉伯数字的系统,从此机器能听懂了人类的话了。这就是第一代“语音识别系统”。可是它的水平十分有限,智能识别0到9这十个数字。我们希望它能听懂人类说的话,可是你却只会数数,这可不行。所以人们还要继续研究下去。

到了1970年,语音识别迎来它的重大突破。这一年美国科学家贾里尼克提出了“基于统计的语音识别框架”的理论,并带领IBM公司的华生实验室,把语音识别从几百个单词量提升到几万个,识别率也由70%上升至90%。

时间来到了20世纪90年代,这段时间诞生了重要算法:隐马尔科夫模型(HMM),成为了语音识别技术的重要基础,由于过于学术,我就不赘述了。至此诞生了IBM公司的ViaVoice程序,也成为了语音识别的重要里程碑,这项技术已经达到了能通过麦克风输入文字的程度。

之后到了2006年,语音识别迎来了自诞生以来最大的一次蜕变。因为在这一年,谷歌的人工智能科学家团队提出了深度学习的概念。即一种可以让计算机主动学习的算法。这个概念的提出让人工智能得到巨大突破。到了互联网大数据时代。人们又把互联网大数据加到了语音识别里,这样由人工智能、大数据和语音识别构成的AI语音识别便诞生了。

而智能语音识别系统第一次走进大众生活中来,是2010年前后。那一年,意气风发的乔帮主带来了iPhone 4S席卷全球,而其中的Siri系统更是让世人感受到了用语音操作手机功能的便利之处。

随后智能语音就像标配,出现在了后续的各类智能手机中,时至今日,Siri、小艾、小E、小度、bixby、Breeno、Jovi等智能语音系统已近走进了我们生活的方方面面,万物互联正在成为可能,语音控制万物也正逐渐成为可能。

那么让我们再把视线放回到汽车上,从19世纪末汽车诞生的一百年来,人们想到过无数种方式与汽车沟通交流,从形态各异的方向盘、手动自动的变速箱、各式各样的交互按钮开关、到二极管液晶屏显示信息,无所不用其极,简直就是一部科技缩影史。

而经过了一百年的发展,人们才想起来,我不仅能靠视觉和触觉接受信息,我还不是个聋子呀!所以当时间来到1983年前后,汽车发明的百年之际,就有了这样两款产品。

这是博世旗下的Blaupunkt研发出的用于汽车语音导航系统原型:Electronic Pilot for Drviers(简称EVA)。你肯定想象不到他的存储方式是磁带,所以受限于磁带容量的问题,这个原型设备中只存储了斯图加特的地图数据,所以只要开出了斯图加特,就不能提供导航了,因此实用价值相当有限。但是EVA的意义在于能够通过听觉来获取导航信息,开创了另一个感知维度交互的体验。

另一款产品是来自英国利兰公司生产的Maestro,超标的科技配置,使他成为80年代最具“未来感”的车型。

液晶仪表盘取代了机械指针。虽然这只是一块像电子时钟一样的单色液晶仪表,但放在那个年代就等于科技感爆棚了。

而另一项极具颠覆的设计——车载语音系统也出现在了Maestro身上,英国利兰邀请了女演员妮可丽特·麦肯琪(Nicolette McKenzie)担当声优,为Maestro录制了包括安全带提示、车门未关报警、机油液位提示、车灯未关报警、低温提示等32组语音信息。虽然不能像今天的语音控制那样智能对话,但80年代初的车主听到Maestro说话时那种震撼可想而知。

就是这样的两款语音产品,打开了车载交互新世界的大门,至此汽车和语音就这样搭上关系,开始了相爱相杀的磨合过程。

时间来到2001年,车载语音交互时代的第一个大规模应用系统是当年推出的宝马7系的iDrive。除了各式各样的旋转、按钮外,语音识别成为人机界面的一个关键元素。
可惜的是,受制于科技技术水平和硬件水平的种种原因,车载语音一直处在可用但不好用的状态。这其中也闹了不少的笑话,那一句“纠正,纠正,不是96”至今还余音绕梁无法忘怀。

笑归笑,要知道这段视频的发生时间已经是2015年了,天下苦车载语音久矣!

时间终于来到了2020年,这一年已经是我打算购车的第二个年头了,在过去的一年多时间里,我试驾了市面所有的新能源车和十余台汽油车,加起来也30有余,那时候的我已经不满足于汽车传统的机械素质优秀,更是对一台汽车是否智能有了更高的要求。
可是市面上各种智能汽车宣传的天花乱坠,展现了强大的功能,我心里一直有个坎过不去,就是这些车的人机交互方式始终不得我心。我挑两个我感触最深的例子来给大家说明。

特斯拉纵然有着十分强大的车机系统和各式各样的功能,但是当你真正使用功能的时候,效果极差的语音系统使得你只能在那块有且仅有的屏幕上划来划去,且不说便利性与效率,就说在行车中,你需要不停的看向中控屏,以便确认你是否点击成功,这对行车安全就造成了极大的影响。

而蔚来的NOMI也有几个缺点,也让我心存芥蒂。首先是,语音话术的固定格式化,对于我提出的问题或表述,自然的陈述反应不出来,必需用相对特定的标准语句才可以触发相应的动作,作为一个不熟悉的人,我需记住规定的话术。而一个熟悉的人会感觉有些刻板和生硬。然后是,蔚来语音的融合深度不够,有很多功能是没办法通过语音来实现操作的,至于是为了安全考虑还是能力不足,我更倾向于后者。整体体验就像是我们常用的智能音箱体验,并没有什么亮眼的地方。

而这一切的改变在于遇到了小鹏P7,感觉就像彻底打通了人和车之间的交互隔阂,要知道这还是2020年小鹏P7刚刚启动交付的时候,小P语音助手已经能做到你只要表达出自己的意思,她就能理解出来,而且和车机系统融合得非常深度,基本上全部的功能都能用语音控制来完成,更不用说响应速度和识别准确率了。

随后3个月后,也就是10月末,小P就迎来了一次重大更新,这次的更新让小P更上一层楼,那就是全场景语音。就像给小P增加了四台发动机,交互体验像坐火箭一样往上升。这四个功能分别是:连续对话、可见即可说、语义打断和双音区锁定。

连续对话功能使小P仅需一次唤醒,便可连续说出指令。在整个对话过程中下达一次指令后并不需要再次唤醒小 P 便可下达另一个指令,并且是可以承接上一条的语境连续下达命令的。

可见即可说功能就是当前页面有哪些选项都可以通过语音喊出他的文字来控制,不需要用手去点击开关,这项功能极大的提升行车安全。

语义打断支持在遇到小 P 较长播报时随时发出新指令,不必等小 P 说完后再下达新指令,极大的提升了使用语音的流畅度。

双音区锁定功能则是一项非常提升体验的功能,如果没有这项功能,那么当你车上有两个人或者多人的时候,语音交互就会识别车上所有乘客的说话而混乱。而有了这项功能后,语音交互便只会识别唤醒语音的用户声音,单独听唤醒人的指令。
有了这四项功能傍身,小P彻底和其他的语音控制系统拉开差距,实现了真正意义上好用的语音助手。

截止到这篇文章发出前,古德茂宁的P7已经更新到了最新版的Xmart OS 2.6.1公测版系统。

此次语音系统最重要的变化就是小P拥有更加拟人化的音色和更强的音质,更是使用了市面罕见的“超大规模在线神经网络引擎+小型离线拼接引擎”技术组合。
究竟新系统的小P表现如何,让我们拭目以待。

古德茂宁会在体验后的下一篇文章来和大家聊聊,全新的小P有哪些全新的体验。
关注我,带你玩转小鹏P7。
我是古德茂宁,我们下期再见。

最新评论
暂无评论