国际品牌资讯
您的位置:首页 >奢侈品 >

Google的MixIT AI可以隔离录音中的扬声器

时间:2020-07-01 15:18:39 | 来源:

在预印服务器Arxiv.org上发表的一篇论文中,谷歌和伊利诺伊大学的研究人员提出了混合不变训练(MixIT),这是一种无监督的方法来分离,隔离和增强音频录音中多个说话者的声音。这种方法仅需要单通道(例如,单声道)声学特征,研究人员声称,它通过结合混响混合物和大量的野外训练数据,“显着”提高了语音分离性能。

正如论文的合著者所指出的那样,音频感知存在一个根本性的问题-声音混合在一起的方式无法在不了解信号源特性的情况下就无法解开。已经尝试设计能够从单通道录音中估计每个声源的算法,但是迄今为止,大多数算法都是受监督的,这意味着它们在通过添加声音而创建的音频混合中进行训练,而无论是否模拟环境。结果是,在存在声音混响或声音类型分布不匹配时,它们的表现不佳。这是由于几个因素。首先,很难匹配真实语料库的特征,并且房间特征有时是未知的。这样一来,可能无法轻易获得每种来源类型的数据,

MixIT声称通过使用没有参考文献的声学混合物来解决这些挑战。训练示例是通过将现有的音频混合在一起而构成的,系统将它们分成多个源,然后将分离的源重新混合以近似原始源。

在实验中,使用四个Google Cloud张量处理单元(TPU)对MixIT进行了培训,以处理三个任务:语音分离,语音增强和通用声音分离。为了进行语音分离,研究人员使用了开放源代码WSJ0-2mix和Libri2Mix数据集,以提取390多个小时的男女讲话者录音。他们在将两组信号(WSJ0-2mix的3秒剪辑和Libri2Mix的10秒剪辑)混合输入之前,添加了混响效果。

对于语音增强任务,他们从FreeSound.org收集了非语音声音,以测试MixIT是否可以训练为从包含LibriSpeech语音的混合物中去除嘈杂的音频。对于通用声音分离任务,他们使用了最新发布的Free Universal Sound Separation数据集来训练MixIT从声学混合物中分离出任意声音。

研究人员报告说,在通用声音分离和语音增强中,与现有方法相比,无监督训练没有那么有用-大概是因为测试集与监督训练领域“非常匹配”。但是,对于通用声音分离,相对于仅进行监督的培训,无监督的培训似乎对将测试集泛化略有帮助。虽然没有达到监管的水平,但合著者声称MixIT的无监督性能“史无前例”。

研究人员写道:“ MixIT开辟了新的研究领域,可以利用大量以前未开发的野生数据来训练声音分离系统。”“最终目标是评估真实混合物数据的分离度;然而,由于缺乏事实依据,这仍然具有挑战性。作为替代,根据应用的不同,未来的实验可能会使用识别或人工聆听来作为隔离的度量。”

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。