小爱工程师评测小鹏语音助手

头像
魏天闻
2021-06-17 14:42

鹏友大管家
本文从多个角度评测小鹏P7车载语音助手(简称小鹏)与小爱同学(语音助手)使用体验及产品设计上的差异。

one-shot交互
one-shot交互指的是在设备处于未唤醒状态时,用户一次说出唤醒词和指令的交互方式,类似“你好小P打开空调”、“小爱同学明天的天气怎么样”。目前手机上小爱不支持one-shot唤醒,音箱上默认支持;小鹏默认支持one-shot唤醒。
在本人用车的过程中,小鹏语音助手的one-shot唤醒成功率非常高(语速太快容易失败)。相比先说唤醒词,再说指令的交互方式,one-shot交互更便捷、自然,极大的提升了交互便利性。我个人完全不愿意回到小爱手机的交互方式中去。

背景噪声下唤醒
测试方式为用手机以最大音量播放新闻作为背景声,然后同时说出唤醒词(小鹏-“你好小P”;小爱-“小爱同学”)。测试结果为小鹏每次都可以正确唤醒,小爱无法被唤醒。在本人用车的过程中,小鹏语音助手的唤醒稳定可靠,和测试结果相符。
背景噪声下ASR
测试方式为用手机以最大音量播放新闻作为背景声,唤醒语音助手后(对小爱是用手动唤醒)说出指令“明天天气怎么样”、“播放XX歌曲”。测试结果为小鹏ASR多数时候能够正确识别query,小爱ASR会识别到背景音。

声源识别
小鹏车内空间可分为主驾、副驾、后排。只有主驾和副驾能够唤醒语音助手,后排无法唤醒。当语音助手被唤醒后,小鹏只对唤醒人的命令做回应。也就是说,若主驾唤醒,则小鹏只响应主驾命令;若副驾唤醒,小鹏只响应副驾命令。背后算法推测是声源定位,而不是声纹识别。我本人测试在主驾位置唤醒后,到副驾位置发送指令,小鹏是不响应的。

ASR识别准确率
用若干条music、map、phonecall的query测试两个语音助手ASR准确率。之所以测试这3个垂域是因为它们是头部垂域,而且两个语音助手都具备相应功能可以直接对比,且ASR和领域知识相关(地点,音乐资源,联系人名)因此ASR具有一定难度。测试结果:两个语音助手表现相同,少数query小爱和小鹏同时识别错误,其它query二者都识别正确。例如“导航到泥靴西餐厅”被小鹏识别成“导航到黎轩西餐厅”,被小爱识别成“导航到呢靴西餐厅”。重复多次、变换query表述仍无法被正确识别。猜想是领域知识缺失所致。

功能点
经简单测试发现小鹏完全不支持的功能包括:视频,APP操作,搜索。例如问“搜索新冠疫苗有关消息”,小鹏回复听不懂。说“下载虎牙直播”,小鹏的响应是播放了一首标题包含“虎牙直播”的歌曲,而不是到小鹏APP商店中下载APP。
小鹏支持较为有限的功能包括:问答,闲聊。例如问“刘德华的老婆是谁”,小鹏能给出正确答案。但是问“雷军/马云的老婆是谁”,小鹏回答听不懂。相比较而言,小爱同学对于这些问题都能给出正确答案(跳转到百度网页或百科)。再比如对小鹏说“我好无聊啊”,小鹏表示愿意和我聊天,要我先介绍下自己,问我叫什么名字。我回答说“我叫魏天闻”,小鹏却理解成了“给魏天闻打电话”,然后给我自己拨了个电话。
小鹏支持得比较好的功能是车载控制。例如我说“连接蓝牙”,小鹏会问我“想连接到哪一个”,我说“连接到魏天闻的iphone”,小鹏会自动完成蓝牙连接。小爱在这方面只支持打开/关闭蓝牙,不支持连接到具体蓝牙设备。
本人用车的过程中,最常使用的功能依次是车载控制、导航、听音乐,偶尔使用天气和听新闻,从未使用过其它功能。就头部功能而言,小鹏车载控制和导航的体验较好,听音乐的体验一般。影响听音乐体验的原因是时常会出现找不到资源的情形。

全双工/连续对话
小鹏的连续对话功能是默认开启的,即在唤醒后的一段时间内语音助手都会处于收音状态。经测试发现,小鹏的对连续对话对于“首条query”(唤醒后用户的第一条query)和“后续query”的语义理解采取了不同的策略。简单的说,“后续query”的NLP不支持长尾功能的理解。例如:
唤醒后说“打开空调”,小鹏会正确理解并执行打开空调的动作,并持续收音。这时我接着问“刘德华的老婆是谁”,小鹏会表示不理解。但如果调换一下query顺序:
唤醒后问“刘德华的老婆是谁”,小鹏会正确理解并给出答案,并持续收音。我接下来说“打开空调”,小鹏仍能正确理解并执行操作。
本人用车的过程中,对小鹏连续对话的体验基本上是正向的。大多数情形下,小鹏不会对收听到的无关背景对话进行响应。相比较而言,对于小爱全双工来说任何query只要没有被拒识小爱都会兜底召回。不难想象如果全双工默认开启,其收听到的任何片段都会被当作指令而进行响应,用户会不胜其扰。

多指令
小鹏默认支持多指令的语义理解,例如“关闭车窗打开空调”。小爱目前暂不支持通用的多指令语义理解,预期相关功能下半年上线。

最新评论
暂无评论