微软的FastSpeech AI加快了逼真的声音生成

发布时间:2019-12-25 12:58:45 【来源:

最先进的文本语音转换模型可以生成在初次收听时听起来几乎像人的片段。实际上,它们支撑了可通过Google Assistant获得的神经声音,以及最近出现在Alexa和亚马逊Polly服务中的新闻播音员声音。但是,由于大多数模型共享相同的合成方法-也就是说,它们从文本生成梅尔频谱图(声音的表示),然后使用声码器(分析和合成语音信号的编解码器)合成语音-遭受相同的缺点,即生成梅尔频谱图的推理速度较慢,以及合成语音中跳过和重复的单词。

为了解决这些以及其他与文本语音转换相关的挑战,微软和浙江大学的研究人员开发了FastSpeech,这是一种新颖的机器学习模型,他们在论文中详细介绍了该技术(“FastSpeech:快速,鲁棒且可控的文本语音转换” )接受了在温哥华举行的NeurIPS 2019会议。它具有独特的体系结构,不仅与其他文本到语音模型相比在许多方面都提高了性能(其梅尔谱图生成速度比基线快270倍,语音生成速度却快38倍),而且消除了诸如跳字之类的错误,并且可以对速度和断字进行细粒度的调整。

重要的是,FastSpeech包含一个长度调节器,可调节mel声谱图序列与音素序列(感知上不同的声音单元)之间的差异。由于音素序列的长度始终小于mel频谱图序列的长度,因此一个音素对应于几个mel频谱图。然后,长度调节器根据持续时间扩展音素序列,以匹配梅尔频谱图序列的长度。(补充的持续时间预测器组件确定每个音素的持续时间。)增加或减少与音素对齐的Mel频谱图的数量或音素持续时间,会成比例地调整语音速度。

为了验证FastSpeech的有效性,研究人员针对开源LJ语音数据集对其进行了测试,该数据集包含13,100个英语音频剪辑(相当于24小时的音频)和相应的文字记录。在将语料库随机分为12500个样本进行训练,300个样本进行验证和300个样本进行测试之后,他们对语音质量,鲁棒性等进行了一系列评估。

该团队报告说,FastSpeech的质量几乎与Google的Tacotron 2文本到语音模型相匹配,并且在鲁棒性方面轻而易举地超过了领先的基于Transformer的模型,与基准的34%相比,有效错误率仅为0%。(因此,健壮性测试仅包含50个句子,尽管是根据语义复杂性选择的。)此外,它能够将生成语音的速度从0.5倍更改为1.5倍,而不会降低准确性。

深圳罗湖打造“一个中枢五个中心” 建成中国黄金钻石交易中枢体系
广西黄金珠宝产业园优化全产业链发展 目前为止已入驻企业37家
国内知名珠宝企业齐亮相首届消博会 展现民族品牌新形象
吉尔吉斯斯坦或将取消珠宝产品生产设备进口的增值税 包括精矿砂、合金等
潍坊昌乐“中国宝石城”化身“潍坊市电商小镇 珠宝商变身为“直播网红”
广州发布全国首份围绕新发展格局支持钻石产业专项政策 培育壮大产业集聚带
未来5年 深圳罗湖构建全球竞争力和国际影响力的黄金钻石金融中心
中国珠宝成为首届中国国际消费品博览会唯一指定进口代理商

[ 最新资讯 ]

L Brands在第一季度的强劲销售提振

  这家零售公司宣布计划分拆 本月初的《维多利亚的秘密》,该公司公布 了截至5月1日的季度收入为30亿美元,比 去年疫情期间的16 5亿美 ...

L Brands在第一季度的强劲销售提振

  这家零售公司宣布计划分拆 本月初的《维多利亚的秘密》,该公司公布 了截至5月1日的季度收入为30亿美元,比 去年疫情期间的16 5亿美 ...

Shopee第一季度亏损4.22亿美元

  新加坡的海集团,旗下拥有电子零售商Shopee,今天报告说,其截至3月的三个月净亏损从去年的281亿$扩大至4 22亿$,日经亚洲写道。  这 ...

阿雷佐公司的第一季度利润增长了310%

  巴西鞋类和配饰集团在2021年第一季度的调整后净收入为2960万巴西雷亚尔(560万美元),比去年同期的720万雷亚尔(135万美元)增长了310 7% ...

专业调谐器称Apple TV的自动校准器无法提供

  苹果在四月推出了带有新Apple TV 4K的电视校准功能。颜色平衡选项使用带有Face ID的iPhone上的前置传感器来优化Apple流媒体盒(包括2 ...

华纳传媒与Discovery宣布合并 美国媒体行业其他公司不得不采取应对措施

  据报道,由于 AT&T 已经决定分拆华纳传媒并将其与 Discovery 合并,美国媒体行业的其他公司,尤其是规模较小的公司将面临新的压力 ...