微软的FastSpeech AI加快了逼真的声音生成

发布时间：2019-12-25 12:58:45 【来源：】

最先进的文本语音转换模型可以生成在初次收听时听起来几乎像人的片段。实际上，它们支撑了可通过Google Assistant获得的神经声音，以及最近出现在Alexa和亚马逊Polly服务中的新闻播音员声音。但是，由于大多数模型共享相同的合成方法-也就是说，它们从文本生成梅尔频谱图(声音的表示)，然后使用声码器(分析和合成语音信号的编解码器)合成语音-遭受相同的缺点，即生成梅尔频谱图的推理速度较慢，以及合成语音中跳过和重复的单词。

为了解决这些以及其他与文本语音转换相关的挑战，微软和浙江大学的研究人员开发了FastSpeech，这是一种新颖的机器学习模型，他们在论文中详细介绍了该技术(“FastSpeech：快速，鲁棒且可控的文本语音转换” )接受了在温哥华举行的NeurIPS 2019会议。它具有独特的体系结构，不仅与其他文本到语音模型相比在许多方面都提高了性能(其梅尔谱图生成速度比基线快270倍，语音生成速度却快38倍)，而且消除了诸如跳字之类的错误，并且可以对速度和断字进行细粒度的调整。

重要的是，FastSpeech包含一个长度调节器，可调节mel声谱图序列与音素序列(感知上不同的声音单元)之间的差异。由于音素序列的长度始终小于mel频谱图序列的长度，因此一个音素对应于几个mel频谱图。然后，长度调节器根据持续时间扩展音素序列，以匹配梅尔频谱图序列的长度。(补充的持续时间预测器组件确定每个音素的持续时间。)增加或减少与音素对齐的Mel频谱图的数量或音素持续时间，会成比例地调整语音速度。

为了验证FastSpeech的有效性，研究人员针对开源LJ语音数据集对其进行了测试，该数据集包含13,100个英语音频剪辑(相当于24小时的音频)和相应的文字记录。在将语料库随机分为12500个样本进行训练，300个样本进行验证和300个样本进行测试之后，他们对语音质量，鲁棒性等进行了一系列评估。

该团队报告说，FastSpeech的质量几乎与Google的Tacotron 2文本到语音模型相匹配，并且在鲁棒性方面轻而易举地超过了领先的基于Transformer的模型，与基准的34%相比，有效错误率仅为0%。(因此，健壮性测试仅包含50个句子，尽管是根据语义复杂性选择的。)此外，它能够将生成语音的速度从0.5倍更改为1.5倍，而不会降低准确性。

上一篇：人工智能将如何激发航空公司的客户体验
下一篇：Observe.AI获2600万美元A轮融资