小爱工程师评测小鹏语音助手

鹏友大管家
本文从多个角度评测小鹏P7车载语音助手（简称小鹏）与小爱同学（语音助手）使用体验及产品设计上的差异。

one-shot交互
one-shot交互指的是在设备处于未唤醒状态时，用户一次说出唤醒词和指令的交互方式，类似“你好小P打开空调”、“小爱同学明天的天气怎么样”。目前手机上小爱不支持one-shot唤醒，音箱上默认支持；小鹏默认支持one-shot唤醒。
在本人用车的过程中，小鹏语音助手的one-shot唤醒成功率非常高（语速太快容易失败）。相比先说唤醒词，再说指令的交互方式，one-shot交互更便捷、自然，极大的提升了交互便利性。我个人完全不愿意回到小爱手机的交互方式中去。

背景噪声下唤醒
测试方式为用手机以最大音量播放新闻作为背景声，然后同时说出唤醒词（小鹏-“你好小P”；小爱-“小爱同学”）。测试结果为小鹏每次都可以正确唤醒，小爱无法被唤醒。在本人用车的过程中，小鹏语音助手的唤醒稳定可靠，和测试结果相符。
背景噪声下ASR
测试方式为用手机以最大音量播放新闻作为背景声，唤醒语音助手后（对小爱是用手动唤醒）说出指令“明天天气怎么样”、“播放XX歌曲”。测试结果为小鹏ASR多数时候能够正确识别query，小爱ASR会识别到背景音。

声源识别
小鹏车内空间可分为主驾、副驾、后排。只有主驾和副驾能够唤醒语音助手，后排无法唤醒。当语音助手被唤醒后，小鹏只对唤醒人的命令做回应。也就是说，若主驾唤醒，则小鹏只响应主驾命令；若副驾唤醒，小鹏只响应副驾命令。背后算法推测是声源定位，而不是声纹识别。我本人测试在主驾位置唤醒后，到副驾位置发送指令，小鹏是不响应的。

ASR识别准确率
用若干条music、map、phonecall的query测试两个语音助手ASR准确率。之所以测试这3个垂域是因为它们是头部垂域，而且两个语音助手都具备相应功能可以直接对比，且ASR和领域知识相关（地点，音乐资源，联系人名）因此ASR具有一定难度。测试结果：两个语音助手表现相同，少数query小爱和小鹏同时识别错误，其它query二者都识别正确。例如“导航到泥靴西餐厅”被小鹏识别成“导航到黎轩西餐厅”，被小爱识别成“导航到呢靴西餐厅”。重复多次、变换query表述仍无法被正确识别。猜想是领域知识缺失所致。

功能点
经简单测试发现小鹏完全不支持的功能包括：视频，APP操作，搜索。例如问“搜索新冠疫苗有关消息”，小鹏回复听不懂。说“下载虎牙直播”，小鹏的响应是播放了一首标题包含“虎牙直播”的歌曲，而不是到小鹏APP商店中下载APP。
小鹏支持较为有限的功能包括：问答，闲聊。例如问“刘德华的老婆是谁”，小鹏能给出正确答案。但是问“雷军/马云的老婆是谁”，小鹏回答听不懂。相比较而言，小爱同学对于这些问题都能给出正确答案（跳转到百度网页或百科）。再比如对小鹏说“我好无聊啊”，小鹏表示愿意和我聊天，要我先介绍下自己，问我叫什么名字。我回答说“我叫魏天闻”，小鹏却理解成了“给魏天闻打电话”，然后给我自己拨了个电话。
小鹏支持得比较好的功能是车载控制。例如我说“连接蓝牙”，小鹏会问我“想连接到哪一个”，我说“连接到魏天闻的iphone”，小鹏会自动完成蓝牙连接。小爱在这方面只支持打开/关闭蓝牙，不支持连接到具体蓝牙设备。
本人用车的过程中，最常使用的功能依次是车载控制、导航、听音乐，偶尔使用天气和听新闻，从未使用过其它功能。就头部功能而言，小鹏车载控制和导航的体验较好，听音乐的体验一般。影响听音乐体验的原因是时常会出现找不到资源的情形。

全双工/连续对话
小鹏的连续对话功能是默认开启的，即在唤醒后的一段时间内语音助手都会处于收音状态。经测试发现，小鹏的对连续对话对于“首条query”（唤醒后用户的第一条query）和“后续query”的语义理解采取了不同的策略。简单的说，“后续query”的NLP不支持长尾功能的理解。例如：
唤醒后说“打开空调”，小鹏会正确理解并执行打开空调的动作，并持续收音。这时我接着问“刘德华的老婆是谁”，小鹏会表示不理解。但如果调换一下query顺序：
唤醒后问“刘德华的老婆是谁”，小鹏会正确理解并给出答案，并持续收音。我接下来说“打开空调”，小鹏仍能正确理解并执行操作。
本人用车的过程中，对小鹏连续对话的体验基本上是正向的。大多数情形下，小鹏不会对收听到的无关背景对话进行响应。相比较而言，对于小爱全双工来说任何query只要没有被拒识小爱都会兜底召回。不难想象如果全双工默认开启，其收听到的任何片段都会被当作指令而进行响应，用户会不胜其扰。

多指令
小鹏默认支持多指令的语义理解，例如“关闭车窗打开空调”。小爱目前暂不支持通用的多指令语义理解，预期相关功能下半年上线。