【OTA科普】全新小P声音是怎么像人声的

头像vip
隔壁攻城狮
P7
07-21 16:52 · 干货挖掘机

新一轮OTA带来的小P新声音采用了“全新一代超大规模在线神经网络引擎+小型离线拼接引擎”的技术组合。上面一句出现了大家都听不懂的专业技术词汇,攻城狮现在就跟大家科普一下什么叫神经网络语音。

在解释上述概念之前,我们先要知道小P的声音都是来源于一种叫做语音合成(Text-To-Speech)的技术,简单来说,就是通过计算机将文本转换成语音的过程。

语音合成技术具有悠久的历史。最早的技术有基于规则的共振峰合成,然后出现了单元拼接。这种方法就是先把词组、短语等录制成一个一个的词库单元,然后找到需要的单元拼在一起合成语音。可以想象,单元拼接的效果是单元之间是不连贯的,从而会影响到合成语音的自然度。

另一种技术是基于隐马尔可夫模型(HMM)的语音合成技术。这种方法简单来说,就是对各个发音单元进行建模,生成语音参数,然后再输出合成语音。

但这种语音合成技术最大的缺点就是音质的下降。因为第一种拼接合成方法是将真实的语音片段拼接在一起,所以保留了原始语音片断的音质。而基于HMM的语音合成方法,因为经过语音编码解码,不可避免地会造成合成音质的下降。

随着深度学习技术的不断成熟,基于深度神经网络的语音合成逐渐成为语音合成领域的主流方法。与HMM语音合成技术相比,新的技术可以利用深层神经网络强大的非线性建模能力,有效提升建模精度。

我们知道,语音合成是连续动态过程,需要考虑语义、句法、词性等信息,一段话拆分开来是句子,句子里面有词语,每个词语也有它对应的发音、词性、停顿等等。此外,自然语言中还有很多歧义的想象,比如多音字,要确定一个多音字的读音,需要通过上下文对多音字词的语义进行理解。这些文本分析都可以用深度神经网络进行处理,大大提升了效率。此外在声学层,有了深度神经网络的参与,可以更好的对语音的韵律进行建模,达到更高的自然度。

小P的新声音采用了“大规模在线神经网络引擎+小型离线拼接引擎”的技术组合,其中大规模在线神经网络引擎可以提升声音质感,突破发版限制,灵活修复问题。而小型离线拼接引擎则作为兜底策略,保证车辆在弱网环境下也能时时有回应。小鹏也是目前市面上唯一一家既使用了该技术组合输出声音,目前已经实现在线率97%,离线率3%的触发属性,目标是实现是让用户一周只听到一两次的离线声音。

攻城狮说了这么多,具体的体验还是要看大家自己去感受。究竟小P新声音上手体验如何呢?请你在OTA升级后再给小P的新声音打个分吧!如果你写出了优秀的体验稿子而且获得了加精推荐,记得找社区运营小姐姐领取奖励哦!

imageimage
精彩留言 (5)
查看其它回答
  • 头像
    鹏友889175
    P7
    07-22 14:50

    期待

  • 头像
    Jessicafufu
    P7
    07-22 11:27

    期待

  • 头像
    鹏友1717246
    07-22 10:03

    很好

  • 头像
    楚鹏汇🇨🇳雾里看花
    G3P5Reserved
    07-22 09:11

    老款G3有吗

  • 头像
    远行~
    P7
    07-22 09:03

    是时候提高流量了