脸书的AI可分离多达5个人的语音

发布时间:2020-07-13 17:19:39 【来源:

在2020年国际机器学习会议(ICML)接受的一篇论文中,Facebook的研究人员描述了一种在单个麦克风上同时隔离多达五个声音的方法。该团队声称,他们的方法在几个语音源分离基准上都超过了以前的最新性能,包括具有挑战性的噪声和混响。

将语音与对话分开是改善跨各种应用程序(例如语音消息和视频工具)的通信的关键步骤。除此之外,像研究人员提出的那样的语音分离技术也可以应用于背景噪声抑制的问题,例如在乐器的录音中。

研究人员使用一种新颖的递归神经网络来构建他们的模型,这是一类算法,它利用类似内存的内部状态来处理可变长度的输入序列(例如音频)。该模型利用了将原始音频波形映射到潜在表示的编码器网络。然后,语音分离网络将这些表示形式转换为每个扬声器的估计音频信号。这种“编码器”模型需要知道说话者的总数,但是子系统可以自动检测说话者并相应地选择语音模型。

研究人员训练了不同的模型来分离两个,三个,四个和五个扬声器,然后将输入混音输入到旨在容纳多达五个扬声器的模型中,从而可以检测到存在的音频通道数。然后,他们使用针对活动扬声器数量进行训练的模型重复相同的过程,并检查是否有任何输出声道处于活动状态,并在所有声道均处于活动状态或发现目标扬声器数量最少的模型时停止。

研究人员认为,该系统可以改善带有助听器的人的音频质量,使其更容易在人群和嘈杂的环境(如聚会和饭店)中收听。下一步,他们计划修剪和优化模型,直到在现实世界中获得足够高的性能为止。

Facebook的工作是在Google发表论文之后提出的,该论文提出了混合不变训练(MixIT),这是一种无监督的方法来分离,隔离和增强录音中多个说话者的声音。共同作者声称,该方法仅需要单通道(例如,单声道)声学特征,即可通过合并混响混合物和大量的野外训练数据来“显着”改善语音分离性能。

现代和起亚今年前10个月出口逾9万辆电动汽车 同比增长71.3%
中芯国际称产能接近满载 14nm量产良率已达业界量产水准
OPPO和vivo申请绿厂蓝厂商标 引发网友关注
华为申请“HICAR SMART COCKPIT”等商标 国际分类为“科学仪器”
NASA为登月任务组装火箭 预计在2024年将第一位女性送上月球
特斯拉申请召回美国9136辆Model X及401辆Model Y
OPPO Reno5 Pro入网工信部:双曲面屏设计 矩阵式相机模组
特斯拉在欧洲涨价,下一批Model S在德国贵了4万

[ 最新资讯 ]

始祖鸟之家双面派对,设计师系列惊艳亮相

  11月24日,被誉为户外爱马仕的始祖鸟(ARC’TERYX)全新概念店——始祖鸟之家在全国顶级商圈北京国贸开业了。现场门店实拍图片   ...

曝小米显示器34寸本月最后一单出货后将暂停供应 因三星无屏供应原因

  本月初,视讯堂消息称小米的 34 寸带鱼屏显示器型号,之后可能无法再保持 1999 元的价格进行销售。今天,视讯堂发布最新消息,称小 ...

微星Stealth 15M超轻游戏本纯净白即将上架 屏幕为15.6英寸

  根据微星笔记本官方的消息,微星 Stealth 15M (纯净白)即将上架预约,这款笔记本是首款采用 11 代低压酷睿 + RTX 2060 配置的 ...

EG7今天宣布收购《机甲战士5》开发商Piranha Games 增加其游戏公司种类

  Enad Global 7(EG7)今天(11 27)宣布收购《机甲战士5》开发商Piranha Games,增加了其游戏公司的种类。  EG7已同意以2410万美元的 ...

华米将推出GTS 2 mini手表:将于12月1日发布 外观更轻薄更精致

  根据华米创始人黄汪的消息,华米将推出 GTS 2 mini 手表,外观更轻薄更精致。    根据华米微博的消息, GTS 2 mini 手表将 ...

冬季必看的小黑裤穿搭指南|九牧王男裤专家

  伴随着秋冬而来的除了购物欲还有穿搭热情,但如果你正苦于衣服少、缺乏穿搭灵感,那么,一条百搭、舒适的九牧王小黑裤,或许可以帮到你,只 ...