Google Meet噪音消除技术现已推出-它的工作原理

发布时间:2020-06-09 16:10:45 【来源:

谷歌今天在Google Meet中启用了AI驱动的噪音消除功能。像Microsoft Teams即将推出的噪声抑制功能一样,该功能利用了监督学习,这需要在标记的数据集上训练AI模型。这是一个逐步推出的计划,因此,如果您是G Suite客户,则可能要到本月下旬才能消除噪音。降噪功能将首先在网络上发布,随后将发布Android和iOS。

4月份,Google宣布G Suite Enterprise和G Suite Enterprise for Education客户即将使用Meet的噪音消除功能。公司的描述方式如下:“为帮助减少会议中断,Meet现在可以智能地过滤掉背景干扰,例如在记会议笔记时狗叫或敲击键盘。”俗称的“降噪器”默认情况下处于启用状态,尽管您可以在Google Meet的设置中将其关闭。

随着冠状病毒危机迫使数百万人在家中学习和工作,协作和视频会议工具的使用激增。谷歌(Google)是试图单倍升级Zoom的众多公司之一,该公司的每日会议参加者在三个月内从1000万激增至2亿多。Google将Meet定位为Google的G Suite替代品,截止到4月,Meet每天有1亿人参加会议,是面向企业和消费者的G Suite替代产品。

G Suite产品管理总监Serge Lachapelle从事视频会议已有25年的历史,其中有13年在Google。随着公司大部分人转为在家工作,Lachapelle的团队同意在Google Meet会议中部署降噪器。我们讨论了该项目的开始方式,他的团队如何构建噪音消除,所需数据,AI模型,降噪器如何工作,消除了哪些噪音以及消除了哪些噪音,隐私和用户体验方面的考虑(没有可视化表示降噪器已开启)。

从2017年开始

当Google推出重要的新功能时,通常会从一小部分用户开始,然后根据结果逐步推广。消除噪音也没有什么不同。Lachapelle说:“我们计划在6月份逐步做到这一点。”“但实际上,过去一年来,我们在Google内部已经大量使用了它。”

该项目的意义远不止于此,始于Google在2017年1月收购Limes Audio。

最初的消除噪音的想法是由于在跨时区进行会议时的烦恼而产生的。

“它是从我们会议室的一个项目开始的,” Lachapelle说。“我来自斯德哥尔摩。当我们与美国会面时,通常是在这个时间[在美国早上,在欧洲晚上]。您会听到很多紧贴,紧贴,紧贴和怪异的声音,例如人们在吃早餐或吃晚餐或在家中参加较晚的聚会以及孩子们尖叫等等。大约是一年半以前,确实是触发了该项目的。”

该团队做了很多工作,以寻找正确的数据,建立AI模型并解决延迟问题。但是最大的障碍是首先形成这个想法,然后进行多次模拟和评估。

“从来没有做过,”拉查佩勒说。“起初,我们认为我们需要专用的机器学习硬件芯片的硬件。这是一个非常小的项目。就像我们在Google处的工作方式一样,事情开始时通常很小。我冒昧地说这始于2018年秋天。构建一个引人注目的原型可能要花一两个月或三个月的时间。”

“然后,您会激发团队的热情,”他继续说道。“然后,您会对此感到兴奋。然后,您便获得了资助,可以开始更深入地探索这一点。然后开始将其带入产品阶段。由于许多工作尚未完成,因此可能需要一年时间才能将其推出。我想说的是,我们开始将其更广泛地推广到公司,大约在1月的12月。当人们开始在家中Google工作时,它的使用量大大增加了。然后我们得到一个很好的确认,“哇,我们这里有东西。我们走吧。'”

语料库数据

与语音识别类似,后者需要弄清楚什么是语音,什么不是语音,这种类型的功能需要训练机器学习模型来理解噪声和语音之间的差异,然后仅保留语音。首先,团队使用了数千次自己的会议来训练模型。“我们会说,'好的,大家,这样您就可以知道我们正在记录下来,并且我们将提交它以开始训练该模型。”人聊天。所以要么在同一个房间里来回,要么来回。”

Lachapelle说:“使用混合了噪声和清晰语音的混合数据集对算法进行了训练。”其他Google员工(包括Google Brain团队和Google Research团队的员工)也做出了贡献,尽管会议中没有提供音频。“该算法未经过内部记录的培训,而是员工广泛提交了有关他们的经历的反馈,这使团队得以优化。重要的是要说这个项目站在巨人的肩膀上。多年来,语音识别和增强功能已在Google投入了大量资金,其中大部分工作已被重复使用。”

尽管如此,仍然需要大量的手动验证。“从工程师到马拉卡斯,吉他和手风琴的工作到普通的YouTuber进行直播和测试的人,我已经看到了一切。范围很广。”

降噪器的作用

该功能可以称为“降噪”,但这并不意味着它可以消除所有噪音。首先,每个人都很难就什么声音构成噪音达成共识。即使大多数人都可以同意某件事是会议中不必要的噪音,要让AI模型在不过度使用的情况下达成共识也不容易。

Lachapelle说:“它在关门时效果很好。”“它对狗吠非常有效;孩子们打架,马马虎虎。首先,我们采用一种较软的方法,或者有时我们不打算取消所有内容,因为我们不想太过分,开始取消不应取消的内容。有时候,听到我正在深呼吸或更自然的声音对您很有帮助。因此,随着我们调整它变得越来越好,这将是一个持续多年的项目。”

在我们的电话会议上,Lachapelle演示了一些使用该功能的示例。他在杯子里敲了一支钢笔,轻敲了一个罐子,沙沙了一个塑料袋,甚至鼓掌。然后,他在打开降噪器后又重新进行了所有操作-奏效了。您可以在视频顶部看到他重现类似的声音(使烤坚果袋沙沙作响,单击笔,敲击玻璃杯中的艾伦键,折断尺子,拍手)。

“掌声部分是一个奇怪的时刻,因为当我们向整个团队进行第一次演示时,人们爆发出掌声,并取消了掌声,” Lachapelle说。“那时我们了解到,'哦,我们将需要有一个控制器来在设置中打开和关闭它,因为在某些用例中,您确实不希望消除噪音。 '”

人声范围

去噪器做什么和不抵消的行是模糊的。这并不像检测人的声音并否定其他所有操作那样简单。

“人类的声音范围如此之大,”拉查佩勒说。“我会说尖叫是很难的。这是人的声音,但是是噪音。狗在某些球场上也很难。因此,其中一些有时会漏掉。在这些事情上,它仍在进行中。”

他继续说道:“像吸尘器之类的东西,我们的状况真的很好。”“前几天,我有一个大客户与苏黎世的克里斯蒂娜会面-她领导我们的支持团队。因此,我们正在与该客户交谈,突然间,我在后面看到,她的Roomba开始滚入房间并卡在她的桌子下面。她在那里试图与客户交谈并摆脱Roomba,我们再也没有听说过Roomba了。这完全是沉默。我认为那是最终的考验。如果我们能解决这些问题,例如演习,隔壁有建筑的人,坐在厨房里的人并且搅拌器已经运转了,那么这些事情真的,真的很擅长。”

乐器也可能会被过滤掉。“在很大程度上,确实如此。”拉查佩勒说。“特别是打击乐器。有时候,吉他听起来很像是声音-您开始触碰那里的极限。但是,如果您在后台播放音乐,通常会完全消除。”

那笑声呢?“我从没听过它能阻止笑声。”

那唱歌呢“唱歌作品。”

唱歌会进行,但乐器不会,“特别是在背景中”。

至关重要的是,所有语言都将推出Google Meet的降噪功能。乍一看似乎很明显,但是Lachapelle说,该团队发现以多种语言测试该系统“非常重要”。

“当我们说英语时,我们会使用一定范围的声音,” Lachapelle说。“与其他语言相比,有某种传递辅音和元音的方法。因此,这些都是重要的考虑因素。我们对不同的语言做了很多验证。我们对此进行了很多测试。”

接近度和幅度

另一个挑战是应对邻近性。这不是机器学习问题,而是“噪声太大而不能靠近麦克风”的问题。

Lachapelle说:“键盘输入非常棘手。”“这就像音频信号中的步进功能。尤其是如果键盘靠近麦克风,则在麦克风旁边的那个键的砰砰声意味着我们无法从麦克风中听到声音,因为麦克风已被键盘浸透。因此,在某些情况下,如果我使麦克风超载,我的声音就无法通过。这或多或少变得不可能。”

在确定要滤除的内容时,团队会考虑与麦克风的距离。该模型因此适应振幅。在我们的通话中,Lachapelle用他的iPhone播放了一些音乐。当他将手机的扬声器放在麦克风旁边时,我们可以听到音乐从一点点传来,而从更远处传来的声音有些失真。Google Meet并没有完全取消音乐,而是更加含糊了。当他关闭降噪器时,音乐以最大音量通过。

“那是当您看到它找到我们正在谈论的阈值时,” Lachapelle说。“您不想误报,因此我们会出于安全考虑而犯错。让某事通过比阻止真正应该通过的东西更好。一旦我们开始将它发布给越来越多的用户,这就是我们现在要开始进行调整的原因。我们将能够获得很多反馈。有人会遇到一个我们没有想到的场景,我们必须考虑到这一点并进一步发展模型。”

调音

考虑到它包含的所有不同类型的噪声,调整AI模型将非常困难。但是最终目标不是让模型完全消除背景噪声。也不能确保所有类型的笑声都能通过100%。

“目标是使对话变得更好,”拉查佩勒说。“所以目标是您和我所说的内容的清晰度–绝对。而且,如果音乐在后台播放,并且我们无法将其全部取消,只要您和我之间能进行更好的对话,那就是胜利。因此,这始终与您有关,我能够更好地相互理解。”

在智能手机和忙碌的人们的时代,使对话更加连贯显得尤为重要。

Lachapelle说:“现在,我们有大量使用手机的用户,而且我们从未见过如此多的手机使用情况。”“我知道我们所有人都在谈论数十亿分钟的时间,等等。”但是在很大的一部分中,移动用户的比例从未如此高。移动用户通常处于非常嘈杂的环境中。因此,对于该用例,它将产生巨大的影响。在这里,我正坐在我在瑞典的小办公室里,戴着花哨的麦克风和好的耳机,可能不是我们为此设计的。我们为嘈杂的环境而设计,因为人们无论身在何处都需要交谈。”

隐私

当您进行Google Meet通话时,您的声音会从设备发送到Google数据中心,然后通过TPU上的机器学习模型进行语音加密,然后重新发送回会议。(即使在Google自己的网络,计算机和数据中心内移动时,媒体在传输过程中也总是被加密。有两个例外:当您使用传统电话进行通话时以及记录会议时。)

Lachapelle说:“在去噪的情况下,去噪器使用所有参与者之间共享的密钥读取数据,然后进行去噪,然后使用相同的密钥发送出去。”“这是在数据中心内的一项安全服务(我们称为borg)中完成的,并且数据永远不会在去噪器过程之外访问,以确保隐私,机密性和安全性。我们仍在努力改善基础架构中的管道,以正常连接拨入电话的人员。但这会稍后发生,因为它们的声音非常嘈杂。”

Lachapelle反复强调,Google将随着时间的推移改进此功能,但不会直接使用外部会议。录制的会议也不会用于培训AI。

Lachapelle说:“除非您决定录制会议,否则我们不会考虑会议中正在发生的任何事情。”“然后,我们当然参加了会议,并将其放到了Google云端硬盘中。因此,我们的工作方式是通过客户渠道和支持等,并尝试找出无法按预期工作的情况。在Google内部,有记录在案的会议,如果有人发现发生的问题,则希望他们将其发送给团队。但是,除非有人手动将文件发送给我们,否则我们不会查看录音。”

用户体验注意事项

如果您是G Suite企业客户,则本月Google会为您切换开关时,默认情况下,Meet的噪音消除功能将打开。当您想通过“噪音”时,必须在设置中将其关闭。在网络上,您将单击右下角的三个点,然后单击“设置”。在“音频”标签下的麦克风和扬声器之间,您会看到一个可以打开或关闭的额外开关。它的标签为“降噪:过滤掉不是语音的声音。”

Google决定将此开关设置为设置,而不是在通话过程中可见的位置。而且没有视觉上的迹象表明噪音已被消除。这意味着通话中的噪音将被抵消,人们甚至不会意识到它的发生,更不用说该功能了。我们问拉沙佩勒为什么要做出这些决定。

“有些人可能希望我们表现出'看看我们有多好。现在,您的噪音已被滤除。”我猜您可以将其归结为用户界面方面的考虑,” Lachapelle说。“我们已经进行了许多用户测试和用户采访。去年,在封闭之前,我们在实验室中有用户,我们在这些用户上测试了不同的模型。结合在一起-您可以看到Meet到处都没有按钮,这是一个非常干净的UX。基本上,我对您问题的回答是,它基于我们已经完成的用户研究,并试图保持Meet的界面尽可能整洁。”

谁控制降噪?

在典型的Google Meet通话中,您可以使自己静音,并根据设置将其他人静音。但是谷歌选择不让用户消除噪音。噪声消除发生在发送方(噪声产生的地方),即开关所在的位置。尽管这在大多数情况下可能是有道理的,但这意味着接收器无法控制其听到的噪声消除。团队故意做出了这一决定,但这并非易事。

Lachapelle说:“我认为关闭开关根本不会被大量使用。”“所以把它放在前面和中间可能会使它过载。这应该是神奇的,并且可以在后台运行。但又一次,您的想法浮出水面。这正是我们一直在谈论的内容。我们一直在测试。因此,这确实表明您已经完成了很多作业。因为这些都是挑战。而且我认为我们每个人都不100%确信这是正确的方法。让我们看看进展如何。”

如果没有解决,那就可以了。Google已经完成了大部分工作。移动开关-“我不想说这很简单,但是比更改整个机器学习模型要简单。”我们询问替代解决方案是否意味着在接收端甚至两端都进行切换。

Lachapelle说:“因此,我们将尝试这种方法,并且我们可能希望转到您正在描述的内容上,因为我们将其掌握在越来越多的用户手中。”“绝不完成这项工作。这将是需要持续一段时间的工作。另外,我们将学到很多东西。就像哪种控件最适合用户。您如何使用户了解这是怎么回事?他们需要了解这种情况吗?我们认为我们对如何迈出第一步有了一个想法,但是除此之外,这将是我们所有用户的旅程。”

如果当前的解决方案不起作用,Lachapelle说,该团队可能会构建一些原型,进行更多的用户研究,并通过G Suite的alpha程序对其进行测试。

云与边缘

Google还做出了一个有意识的决定,将机器学习模型放在云中,这并不是立即显而易见的选择。

Lachapelle说:“有很多方法可以应用这些模型。”“有些需要更强大的端点-您需要一台好的计算机。您已经看到了一些已经发布的内容,其中一些作为扩展,或者某些需要更强大的图形卡。我们不想走那条路。我们希望确保无论您使用什么手机,在笔记本电脑上的手机上都可以访问此功能。笔记本电脑越来越薄-他们不再拥有风扇。用CPU过度加载它们不是一个好主意。因此,我们决定看看是否可以在云中做到这一点。”

以前根本无法使用云。

Lachapelle说:“仅仅在五,六,七年前,在云中操作媒体可能会增加200毫秒的延迟,增加300毫秒的延迟。”“我们的工作一直在尽可能快地通过云。但是现在有了这些TensorFlow处理器,以及基本上是我们基础架构的构建方式,我们发现我们可以实时进行媒体操作,有时仅增加大约20毫秒的延迟。这就是我们走的路。”

Google确实考虑使用优势-将机器学习模型放在实际设备上,例如在适用于Android和iOS的Google Meet应用程序中。

“我们当然想到了,”拉查佩勒说。“但是我们决定,我们希望在设备之间拥有更一致的体验。假设我有一个先进的i9处理器,然后开始使用[降噪]。但是,如果我转移到只有i3处理器的笔记本电脑上,我的声音就会差很多。因此,我们确实试图看到如何以一致的方式将其带给一大群人。这是关于体验的一致性。”

Google决定使用云计算意味着您在每台设备上都应拥有完全相同的去噪会议体验。您也无需更新任何内容,甚至无需更新手机上的Google Meet应用。噪声消除将在服务器端打开。

Lachapelle说:“我们真的认为这会有所帮助。”“我从事回声消除,实时清理视频伪像以及所有这些事情的工作。这是我们第一次在云中进行信号处理。我们对此感到非常兴奋。我认为这可以改变很多信号处理范例。过去它是非常非常复杂的数学,而数学通常受您所拥有的硬件的限制-在云中使用机器学习模型而不是复杂的数学来获得相同或更好的结果。”

速度与成本

除了针对不同类型的噪声训练模型之外,还有另一个要克服的技术障碍:速度。

Lachapelle说:“做到这一点非常重要,因为这基本上是我们团队的大部分工作-尝试一直在优化所有内容以提高速度。”“我们不能引入使速度变慢的功能。因此,我想说,仅仅对代码进行优化以使其变得尽可能快可能是完成工作的一半以上。不仅仅是创建模型,还不仅仅是整个机器学习部分。就像优化,优化,优化一样。这是最困难的障碍。”

Google似乎对延迟很满意,但是还有一个成本问题。为Google Cloud托管的每个会议中的每个与会者增加一个额外的处理步骤是很昂贵的。

“与之相关的成本,”拉查佩勒承认。“绝对。但是在我们的建模中,我们认为这会使针移动太多,这是我们需要做的。这是我们将首先为付费的G Suite客户带来的功能。当我们看到它的使用量并继续改进它时,希望我们能够将它带给越来越多的用户群。”

中国联通:已累计开通5G基站33.2万站 到今年年底预计超过38万个
饿了么现已入驻1000所高校食堂 校园内平均20分钟送达
谷歌在西雅图附近规划新园区 在亚马逊和微软总部所在地扩大触角
我国国家顶级域名“.CN”数量超过2300万个 IPv6规模化部署提速
邬贺铨:截至8月我国IPv6活跃用户达3.65亿 占互联网用户之比达40.32%
苹果、谷歌、英特尔等公司已经加入行业组织美国“6G联盟”
微软今天正式终止Win7嵌入式系统支持 花钱可买三年补丁
OPPO将发布首款概念级应用OPPO CybeReal 针对AR领域

[ 最新资讯 ]

始祖鸟之家双面派对,设计师系列惊艳亮相

  11月24日,被誉为户外爱马仕的始祖鸟(ARC’TERYX)全新概念店——始祖鸟之家在全国顶级商圈北京国贸开业了。现场门店实拍图片   ...

曝小米显示器34寸本月最后一单出货后将暂停供应 因三星无屏供应原因

  本月初,视讯堂消息称小米的 34 寸带鱼屏显示器型号,之后可能无法再保持 1999 元的价格进行销售。今天,视讯堂发布最新消息,称小 ...

微星Stealth 15M超轻游戏本纯净白即将上架 屏幕为15.6英寸

  根据微星笔记本官方的消息,微星 Stealth 15M (纯净白)即将上架预约,这款笔记本是首款采用 11 代低压酷睿 + RTX 2060 配置的 ...

EG7今天宣布收购《机甲战士5》开发商Piranha Games 增加其游戏公司种类

  Enad Global 7(EG7)今天(11 27)宣布收购《机甲战士5》开发商Piranha Games,增加了其游戏公司的种类。  EG7已同意以2410万美元的 ...

华米将推出GTS 2 mini手表:将于12月1日发布 外观更轻薄更精致

  根据华米创始人黄汪的消息,华米将推出 GTS 2 mini 手表,外观更轻薄更精致。    根据华米微博的消息, GTS 2 mini 手表将 ...

冬季必看的小黑裤穿搭指南|九牧王男裤专家

  伴随着秋冬而来的除了购物欲还有穿搭热情,但如果你正苦于衣服少、缺乏穿搭灵感,那么,一条百搭、舒适的九牧王小黑裤,或许可以帮到你,只 ...