#小P语音#
从手机到智能家居,从智能家居再到智能汽车,语音交互已经遍及我们的日常生活,但语音交互仍没有达到成熟应用的水平,遇到的困难也贯穿了开发到使用整个过程。通常一套完整的语音交互系统有三个典型模块,语音识别(Automatic Speech Recognition,ASR),即将声音转化成文字,自然语言处理过程(Natural Language Processing,NLP)即将文字的含义解读出来,并给出反馈,最后通过语音合成(Text to Speech,TTS),即将输出信息转化成声音。
难点一:远场识别难题
第一个难题是获取语音的问题。语音质量高的前提下,才能有较好的语音识别结果,有些公司宣称自己的语音识别率达到了95%甚至99%,但其前提条件往往是声源距离很近、环境特别安静、说话人的普通话特别标准,而非日常的应用场景。获取用户语音,根据距离分为近场识别和远场识别两种情况,后者难度更大。手机上的语音交互是典型的近场,距离声源近,语音信号的质量较高。另一方面,采集语音的交互相对简单,有触摸屏辅助,用户通过点击开始和结束进行信号采集,保证可以录到用户说的话。远场语音交互以智能音箱为代表,声源远,不知道声源具体位置,环境中存在噪声、混响和反射。单麦克风无法满足要求,需要麦克风阵列支持。用户可能站在任意方位,被语音唤醒后,需要定位到声源位置,向该方向定向识音,增强语音并降低其他区域和环境的噪声
难点二:语音识别正确率
实际工作中,常用的指标是识别词错误率(Word Error Rate)。微软语音和对话研究团队负责人黄学东最近宣布微软语音识别系统错误率由5.9%进一步降低到5.1%,可与专业速记员比肩。进步来自于两方面,一是技术,包括隐马尔可夫模型、机器学习和各种信号处理方法,另一方面是庞大的计算资源和训练数据。但即使是这样,仍然有5.1%的错误率。
难点三:语义识别
约翰·希尔勒提出过「中文房间」的思想实验,一个不懂中文,会说英语的人在一个封闭房间中,房间里有一本英文手册告知如何处理相应的中文信息。用中文写的问题从窗户递进房间里,这个人对照手册进行查找,将对应的中文解答写在纸上并递出去。房间外的人可能会觉得这个人很懂中文,实际他一窍不通。训练机器来理解语义类似于这个过程。通过训练,我们让机器的反应接近于能够理解,但无法像人类一样真正理解语言。



