国际品牌资讯
您的位置:首页 >互联网 >

广泛使用的机器学习方法无法正常运行

时间:2020-04-24 12:59:42 | 来源:

用于分析复杂网络的模型和算法已广泛用于研究中,并通过在在线社交网络,搜索引擎和推荐系统中的应用而影响了整个社会。但是,根据一项新研究,一种广泛用于这些网络建模的算法方法存在根本缺陷,无法捕获现实世界中复杂网络的重要属性。

巴斯金学院计算机科学与工程学副教授C.“ Sesh” Seshadhri说:“这些技术并没有给您带来绝对的垃圾。它们中可能包含一些信息,但没有很多人相信的那样多。”加州大学圣克鲁斯分校工程系教授。

Seshadhri是有关新发现的论文的第一作者,该论文于3月2日发表在《美国国家科学院院刊》上。该研究评估了称为“低维嵌入”的技术,这些技术通常用作机器学习模型的输入。这是一个活跃的研究领域,新的嵌入方法正在迅速开发。但是Seshadhri和他的合著者说,所有这些方法都有相同的缺点。

为了解释原因,Seshadhri以社交网络为例,这是一种熟悉的复杂网络。许多公司将机器学习应用于社交网络数据,以生成有关人们行为的预测,对用户的建议等。嵌入技术实质上是将一个人在社交网络中的位置转换为几何空间中某个点的一组坐标,从而为每个人生成一个可以插入算法的数字列表。

“这很重要,因为可以将诸如人在社交网络中的位置之类的抽象事物转换为具体的数字列表。另一重要的事情是,您希望将其转换为一个低维空间,这样数字列表就代表了每个人都相对较小。”

转换完成后,系统将忽略实际的社交网络,并根据空间点之间的关系进行预测。例如,如果在那个空间中有很多与您接近的人正在购买特定产品,则系统可能会预测您可能会购买同一产品。

Seshadhri及其合作者从数学角度证明了复杂网络的重要结构方面在此嵌入过程中丢失了。他们还通过在不同种类的复杂网络上测试各种嵌入技术来凭经验证明了这一结果。

“我们并不是说某些特定的方法会失败。我们是说,任何给您提供一小部分数字的嵌入方法从根本上都会失败,因为低维几何体对于社交网络和其他社交网络而言,表达能力不足。复杂的网络,” Seshadhri说。

现实世界中社交网络的一个关键特征是三角形的密度,即三个人之间的联系。

Seshadhri说:“在有很多三角形的地方,这意味着社交网络的那部分有很多社区结构。”“此外,当您查看社交网络有限的人时,这些三角形更为重要。在典型的社交网络中,有些人拥有大量的联系,但大多数人没有很多联系。”

在对嵌入技术的分析中,研究人员观察到,在嵌入过程中丢失了许多表示社区结构的社会三角形。Seshadhri说:“所有这些信息似乎都消失了,因此,当您构建这些几何表示时,几乎就像您想要找到的东西一样丢失了。”

低维嵌入绝不是用于生成预测和推荐的唯一方法。它们通常只是非常庞大和复杂的机器学习模型的众多输入之一。

“此模型是一个巨大的黑匣子,据报道,许多积极的结果表明,如果包括这些低维嵌入物,则性能会提高,也许会有轻微的颠簸。但是,如果单独使用它,它会看来您会很想念,” Seshadhri说。

他还指出,大多数新的嵌入方法都与其他嵌入方法进行了比较。然而,其他研究人员最近的实证研究表明,不同的技术可以为特定任务提供更好的结果。

他说:“假设您要预测谁是共和党人,谁是民主党人。有专门针对该任务开发的技术比嵌入效果更好。”“声称这些嵌入技术可用于许多不同的任务,这就是为什么许多人采用它们的原因。将它们插入现有的机器学习系统也很容易。但是对于任何特定任务,事实证明都有总是可以做得更好。”

考虑到机器学习在我们社会中的影响力日益增长,Seshadhri说,研究模型背后的基本假设是否有效很重要。

他说:“我们所有这些复杂的机器在做的事情都会极大地影响我们的生活。我们的信息只是,我们在评估这些技术时需要更加谨慎。”“尤其是在当今机器学习变得越来越复杂的时代,重要的是要对可以做什么和不能做什么做一些了解。”

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。