国际品牌资讯
您的位置:首页 >资讯 >

脸书的AI可分离多达5个人的语音

时间:2020-07-13 17:19:39 | 来源:

在2020年国际机器学习会议(ICML)接受的一篇论文中,Facebook的研究人员描述了一种在单个麦克风上同时隔离多达五个声音的方法。该团队声称,他们的方法在几个语音源分离基准上都超过了以前的最新性能,包括具有挑战性的噪声和混响。

将语音与对话分开是改善跨各种应用程序(例如语音消息和视频工具)的通信的关键步骤。除此之外,像研究人员提出的那样的语音分离技术也可以应用于背景噪声抑制的问题,例如在乐器的录音中。

研究人员使用一种新颖的递归神经网络来构建他们的模型,这是一类算法,它利用类似内存的内部状态来处理可变长度的输入序列(例如音频)。该模型利用了将原始音频波形映射到潜在表示的编码器网络。然后,语音分离网络将这些表示形式转换为每个扬声器的估计音频信号。这种“编码器”模型需要知道说话者的总数,但是子系统可以自动检测说话者并相应地选择语音模型。

研究人员训练了不同的模型来分离两个,三个,四个和五个扬声器,然后将输入混音输入到旨在容纳多达五个扬声器的模型中,从而可以检测到存在的音频通道数。然后,他们使用针对活动扬声器数量进行训练的模型重复相同的过程,并检查是否有任何输出声道处于活动状态,并在所有声道均处于活动状态或发现目标扬声器数量最少的模型时停止。

研究人员认为,该系统可以改善带有助听器的人的音频质量,使其更容易在人群和嘈杂的环境(如聚会和饭店)中收听。下一步,他们计划修剪和优化模型,直到在现实世界中获得足够高的性能为止。

Facebook的工作是在Google发表论文之后提出的,该论文提出了混合不变训练(MixIT),这是一种无监督的方法来分离,隔离和增强录音中多个说话者的声音。共同作者声称,该方法仅需要单通道(例如,单声道)声学特征,即可通过合并混响混合物和大量的野外训练数据来“显着”改善语音分离性能。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。

猜您喜欢