研究人员使用AI和音频来预测物体将落在何处

发布时间：2020-07-08 13:10:08 【来源：】

卡内基梅隆大学的研究人员在一项新的预印本研究中声称，声音可以用来预测物体的外观及其运动。合著者创建了一个“声音动作视觉”数据集和一系列AI算法，以研究音频，视觉和运动之间的相互作用。他们说，结果表明，从声音中得出的表示可以用来预测物体在受到物理力作用时将移动的位置。

尽管视觉是感知的基础，但声音却同样重要。它可以捕获通常通过视觉或力数据无法察觉的丰富信息，例如干树叶的质地或香槟酒瓶内的压力。但是很少有系统和算法利用声音作为建立物理理解的工具。这种监督激励了卡内基梅隆大学的研究，该研究试图探索声音与动作之间的协同作用，并发现可能做出什么样的推断。

研究人员首先通过构建一个机器人Til-Bot来创建声音动作视觉数据集，该机器人将包括螺丝刀，剪刀，网球，立方体和夹子在内的物体沿任意方向倾斜放在托盘上。这些物体撞击石膏托盘的薄壁并产生声音，这些声音被逐一添加到语料库中。

安装在30×30厘米托盘上的四个麦克风(每侧一个)记录音频，而高架摄像机则捕获RGB和深度信息。Tilt-Bot将每个对象移动了一个小时，并且每次对象与托盘接触时，机器人都会创建一个包含声音，RGB和深度数据的日志，并跟踪对象与墙壁碰撞时的位置。

利用碰撞中的录音，该团队使用了一种方法，使他们能够将录音视为图像。这允许模型捕获来自单个音频通道的时间相关性(即，一个麦克风的录音)以及多个音频通道之间的相关性(来自多个麦克风的录音)。

然后，研究人员使用了语料库(其中包含来自60多个物体和托盘之间15,000次碰撞的声音)来训练模型以从音频中识别物体。在第二个更具挑战性的练习中，他们训练了一个模型来预测对看不见的对象执行了哪些操作。第三，他们训练了一种前向预测模型，以在物体被机械臂推动后暂定物体的位置。

研究人员称，对象识别模型学会了从声音中预测正确的对象的时间为79.2%，只有在生成的声音太柔和时才会失败。同时，动作预测模型在一组30个以前看不见的物体上实现了0.027的均方误差，比仅使用来自摄像机的图像训练的模型要好42%。而且，前向预测模型在预测对象可能移动的位置时更为准确。

研究人员写道：“在某些领域，例如正向模型学习，我们证明声音实际上提供的信息多于仅从视觉信息获得的信息。”“我们希望将与我们的发现一起公开发布的Tilt-Bot数据集将激励声音操作领域的未来工作，并在机器人技术中找到广泛的适用性。”

[ 热点图文 ]

[ 最新资讯 ]

始祖鸟之家双面派对，设计师系列惊艳亮相