脸书的语音识别模型支持51种不同的语言

发布时间:2020-07-13 16:33:40 【来源:

脸书研究人员开发出了他们所谓的最大的自动语音识别(ASR)模型,该模型在训练了超过16,000小时的录音后学会了用51种语言理解单词。在预印本服务器Arxiv.org上发表的一篇论文中,合著者说,该系统包含大约十亿个参数,与基准相比,在一个基准上,语音识别性能提高了28.8%。

出于多种原因,需要设计一个模型来识别多种语言的语音。一方面,它简化了后端生产流程,而且研究表明,在类似语言上训练多语言模型可以降低总的单词错误率(WER)。

脸书的模型-所谓的联合序列到序列(Seq2Seq)模型-经过培训,同时在所有语言中共享来自编码器,解码器和令牌集的参数。编码器将输入音频序列映射到中间表示,而解码器将这些表示映射到输出文本,并且令牌集通过以不同频率对句子进行采样来简化使用多种语言的过程。

研究人员将51种语言分为不同的组,每个组具有不同的解码器,然后他们为每个单独的语言组选择10,000个“子词”单元作为标记集。接下来,他们将一些较小的语言组手动组合在一起,直到最终总共只有六个语言组,这防止了组大小因其所包含的语言数量而过度扭曲。

共同作者根据脸书公开分享的匿名视频创建了培训数据集,将其分为三类:由600多个小时的培训数据组成的高资源语言(例如,英语,北印度语,法语),具有300种资源的中资源语言长达500小时的数据(孟加拉语,日语,俄语),以及资源少的语言,具有100至150小时的数据(挪威语,斯瓦希里语,立陶宛语)。根据某些准则对视频进行转录后,他们调整了模型的超参数或参数值,这些参数的值用于控制学习过程。

研究人员报告说,在多个实验中,他们模型的最佳版本对高资源语言的WER平均提高了9.1%,对中资源语言的提高了12.44%,对低资源语言的提高了28.76%。在包括繁体中文,波斯文和泰卢固文在内的以前从未见过的低资源语言上,它也表现出色。

脸书研究人员写道:“据我们所知,这项工作是第一个大规模研究多语言系统的工作。”“我们证明,有可能为51种不同的语言训练一个庞大的单一ASR体系结构,我们发现在实践中,与51种不同的单语基线相比,调优的时间要少得多。”

新模型的发布是在脸书详细发布了wav2vec 2.0之后的,它是一种用于自我监督语音识别的改进框架。在一篇论文中,研究人员声称,wav2vec 2.0在概念上更简单,性能优于最佳的半监督方法,仅用10分钟的标记数据并在53,000小时的未标记数据上进行预训练即可达到最新的结果。

中国联通:已累计开通5G基站33.2万站 到今年年底预计超过38万个
饿了么现已入驻1000所高校食堂 校园内平均20分钟送达
谷歌在西雅图附近规划新园区 在亚马逊和微软总部所在地扩大触角
我国国家顶级域名“.CN”数量超过2300万个 IPv6规模化部署提速
邬贺铨:截至8月我国IPv6活跃用户达3.65亿 占互联网用户之比达40.32%
苹果、谷歌、英特尔等公司已经加入行业组织美国“6G联盟”
微软今天正式终止Win7嵌入式系统支持 花钱可买三年补丁
OPPO将发布首款概念级应用OPPO CybeReal 针对AR领域

[ 最新资讯 ]

始祖鸟之家双面派对,设计师系列惊艳亮相

  11月24日,被誉为户外爱马仕的始祖鸟(ARC’TERYX)全新概念店——始祖鸟之家在全国顶级商圈北京国贸开业了。现场门店实拍图片   ...

曝小米显示器34寸本月最后一单出货后将暂停供应 因三星无屏供应原因

  本月初,视讯堂消息称小米的 34 寸带鱼屏显示器型号,之后可能无法再保持 1999 元的价格进行销售。今天,视讯堂发布最新消息,称小 ...

微星Stealth 15M超轻游戏本纯净白即将上架 屏幕为15.6英寸

  根据微星笔记本官方的消息,微星 Stealth 15M (纯净白)即将上架预约,这款笔记本是首款采用 11 代低压酷睿 + RTX 2060 配置的 ...

EG7今天宣布收购《机甲战士5》开发商Piranha Games 增加其游戏公司种类

  Enad Global 7(EG7)今天(11 27)宣布收购《机甲战士5》开发商Piranha Games,增加了其游戏公司的种类。  EG7已同意以2410万美元的 ...

华米将推出GTS 2 mini手表:将于12月1日发布 外观更轻薄更精致

  根据华米创始人黄汪的消息,华米将推出 GTS 2 mini 手表,外观更轻薄更精致。    根据华米微博的消息, GTS 2 mini 手表将 ...

冬季必看的小黑裤穿搭指南|九牧王男裤专家

  伴随着秋冬而来的除了购物欲还有穿搭热情,但如果你正苦于衣服少、缺乏穿搭灵感,那么,一条百搭、舒适的九牧王小黑裤,或许可以帮到你,只 ...