首页 > 资讯 >

真·配音神器！火山语音团队发布最新超自然对话语音合成技术

发布时间：2022-09-20 10:46:22 【来源：智东西（公众号：zhidxcom）】

　　智东西（公众号：zhidxcom）

　　作者 | 火山语音团队

　　编辑 | ZeR0

　　数星星盼月亮，万千杰迷苦等6年，不久之前终于等到周董发新专辑啦！一经上线引爆全网讨论，就像这样：

　　//oss.zhidx.com/uploads/2022/09/6327e9d3afa88_6327e9d3ab8f8_6327e9d3ab8d7_PR_bgm-3.wav

　　这段对话声音的“主人”不是真正的人类，而是由语音合成的。

　　提到“语音合成”，你脑海中可能会出现机械的导航声，或者听起来毫无感情地机器人客服，抑或是各社交平台及视频网站上，十个解说视频、九个声音雷同的影视剧解说视频。

　　如今，语音合成技术已经发展到能颠覆许多人刻板印象的水平，就像人说话一样自然流畅。

　　这段音频的发布者，火山语音，字节跳动AI Lab Speech & Audio智能语音与音频团队，长期以来面向抖音、剪映、番茄小说、飞书等业务提供领先的AI语音技术能力及全栈语音产品解决方案，并通过火山引擎向外部企业开放技术服务。

　　为了更好地向大众解密其超自然对话语音合成技术的技术亮点，火山语音团队又提供了两段音频：

　　这几句输入的文本完全相同，即 “南方菜系偏爱蘸料，例如我第一次去上海才知道烧烤里的蔬菜也需要配蘸料” ，但合成的音频效果却有明显差异，即第二段音频来源于火山语音团队本次上新的超自然对话语音合成技术。

　　一、探索音频奥秘，如何让声音真假难辨？

　　回想一下人在日常表达时的状态，大脑处理信息是需要思考时间的。

　　体现到语言上，人就会不由自主的出现一些犹豫、拖音、倒装，甚至是说了一半改口、结巴重复的情况，也会刻意加重读音强调想表达的重点信息。这就带来了大量难以观测的细微表达。这些现象在传统的TTS（文字转语音）中难以被捕捉还原。

　　而这些细微之处的完美复现正是让声音真假难辨的奥妙之源，也是上述音频的奥秘所在。

　　具体来说，火山语音团队最新发布的超自然对话语音合成技术相较传统TTS更加真实自然，即语气词、吸气声、犹豫时的停顿以及字音拖长等细节统统被完美复现，而且只需常规音库1/4数据，就可完美还原真人说话细微的韵律特点、发音口癖，让合成效果更加真实。

　　有专业评测结果显示，火山语音的这项新技术与真人录音对比基本没有差距，难以被评测者分辨出来。此外这项技术目前已在视频配音、电话客服等多个场景投入应用，近日即将上线火山引擎语音技术官网对外露出。

　　这么厉害的技术，究竟是怎么办到的？

　　据介绍，上述这些在实际交流中经常出现的倒吸气、吞音、思考时不由自主的拖长字音、低笑等表现被称为副语言现象（paralanguage），尽管这是人脑思考、表达过程中最真实的表现，但由于传统的语音合成技术框架无法对分布稀疏的副语言现象进行有效建模，所以在说话时的韵律还原度表现有限、过于“正确”。

　　基于上述难点，火山语音超自然语音合成技术分别从文本和语音建模两个层面进行突破，具体来说：

　　在文本层面，火山语音采用了生成式的风格迁移模型，模仿真人说话的方式对文本进行可控的口语化转写，让文本更好地拥抱口语化，避免最终效果太过书面。

　　在语音层面，团队则是通过文本分析模型的突破，在TTS的输入侧额外增加了副语言预测，模仿真人的发音特点来实现自然自发的语音效果。

　　值得一提的是，团队通过使用无监督特征的TTS建模方案，有效提高了模型的稳定性与表现力，仅仅使用常规音库1/4的数据规模，就可以实现十分自然多变的韵律效果，很赞吧？

　　二、致力文本口语化，实现“拟真人表达”

　　文本作为语音合成技术的输入，其风格是否贴近真人的表达方式，是合成效果提升的第一步；但受限于根深蒂固的书写用语习惯，大多数合成前的文本并不够自然，或者需要投入大量精力不断调整，费时费力。

　　为了解决此类问题，火山语音团队采用了两阶段方案并取得了不错的效果：

　　阶段一：采用自监督方法，使用伪数据对口语化模型进行预训练，降低了数据量的需求；同时在模型中引入了指针网络结构，增强了文本可控性。

　　阶段二：利用少量优质的人工标注数据，对预训练好的口语化模型进行微调，最终实现可控的、自然的口语化文本效果。

　　三、副语言建模+韵律多样性，语音真实感全面升级

　　为了更好地还原真人，区别于传统的语音合成技术，火山语音在副语言建模和韵律多样性上也分别进行了深入研究。

　　在副语言建模方面，团队推出的合成技术实现了声学模型对自然表达中出现的吸气、笑声、犹豫、修正等多种副语言现象建模，并且结合文本的语义信息自动插入副语言现象。在插入过程中同时考虑合理性与随机性，表现更加自然真实。

　　示例文本：我觉得这样其实对身体特别好。

　　//oss.zhidx.com/uploads/2022/09/6327e3087e5a0_6327e3087b066_6327e3087b041_音频C.wav

　　示例文本：你看像我们现在这个工作，早上基本上就不怎么吃早餐了。

　　//oss.zhidx.com/uploads/2022/09/6327e3029b67c_6327e30298989_6327e30298964_音频D.wav

　　示例文本：像我们早上基本上就是豆浆油条包子。

　　//oss.zhidx.com/uploads/2022/09/6327e2fda82c3_6327e2fd9ae62_6327e2fd9ae3f_音频E.wav

　　示例文本：他肯定是，很想吃肉。

　　//oss.zhidx.com/uploads/2022/09/6327e9b3e3ec8_6327e9b3e010a_6327e9b3e00e4_ParalangTest_is_000008_npy_01_new2的副本.wav

　　“在韵律多样化的探究中，我们结合无监督表征学习技术，自主研发了高表现力的声学模型框架，通过发音、韵律、音色解耦等方式，不但降低了数据量的需求，实现对出现频率极低发音现象的高效建模；同时使用无监督表征特征并结合音素级别的基频、能量信息等，实现了韵律的自然多变，促成高质量对话语音生成。”火山语音团队总结道。