AI研究人员创建测试工具以查找来自亚马逊和谷歌以及微软的NLP中的错误

发布时间:2020-07-13 16:57:14 【来源:

人工智能研究人员创建了一种语言模型测试工具,该工具发现了来自亚马逊,谷歌和微软的商业化云人工智能产品中的主要错误。昨天,详细介绍CheckList工具的论文获得了计算语言协会(ACL)会议组织者的最佳论文奖。ACL会议于本周在线举行,是研究人员创建语言模型的最大年度聚会之一。

如今,经常会根据NLP模型在一系列单独任务上的执行情况来对它们进行评估,例如使用带有GLUE排行榜的基准数据集来回答问题。相反,CheckList采用了​​与任务无关的方法,使人们可以创建测试,以功能(按行)和测试类型(按列)以及可视化和其他资源填充类似电子表格的矩阵中的单元格。

使用CheckList进行分析发现,当在文本中放置随机缩短的URL或Twitter句柄时,Amazon的理解分析会发生大约四分之一的情感预测变化;当文本中的人或地点的名称发生变化时,Google Cloud的自然语言和Amazon的Comprehend都会出错。 。

“当否定句出现在句子结尾时(例如,'我以为飞机是可怕的,但事实并非如此'),或者在否定和充满情感的词,”该论文说。

尽管在Quora Question Pair基准测试挑战中超越了人类的准确性,但CheckList在解释Quora问题的答案时也发现了缺点。微软,华盛顿大学和加利福尼亚大学欧文分校的CheckList的创建者表示,结果表明,使用该方法可以改善任何现有的NLP模型。

“虽然传统基准表明这些任务的模型与人类一样准确,但CheckList揭示了各种严重的错误,其中商业和研究模型无法有效处理基本语言现象,例如否定,命名实体,共指,语义角色标签等。 ,因为它们与每个任务有关,”该论文说。“拥有CheckList的NLP从业者创建的测试数量是没有它的用​​户的两倍,发现的错误几乎是没有它的用​​户的三倍。”

还使用CheckList对Google的BERT和Facebook AI的RoBERTa进行了评估。作者说,BERT在机器理解方面表现出性别偏见,例如绝大多数预测男性是医生。还发现BERT在处理有关无神论者,黑人,同性恋者或同性恋者的文字时,总是对异性恋或亚洲人做出积极的预测,而对消极预测则总是做出消极的预测。2020年初的分析还发现大型语言模型之间存在系统性偏差。

近几个月来,从Nvidia的Megatron到Microsoft的Turing NLG,已经设计出了一些基于Transformer的最大语言模型。大型语言模型在特定任务上的成绩令人印象深刻。但是一些NLP研究人员认为,专注于单个任务的人类水平性能会忽略NLP系统仍然脆弱或不那么健壮的方式。

作为与Microsoft负责文本分析的团队进行的用例测试的一部分,TextList是客户当前正在使用的模型,该模型已经过多次评估,CheckList发现了以前未知的错误。Microsoft团队现在将在评估NLP系统时将CheckList用作其工作流程的一部分。来自行业和学术界的人员在两个小时的时间内使用该工具测试了AI,他们还发现了最新的NLP模型中的错误或错误。目前,GitHub上提供了CheckList的开源版本。

行为测试有时被称为黑盒测试,是软件工程中常见的一种方法,但在AI中却不是。CheckList能够在情感分析,机器理解和重复问题检测等领域进行测试。它还可以分析三种任务范围内的功能,如健壮性,公平性和逻辑测试。

作者的结论是明确的,仅基准任务不足以评估NLP模型,但他们还说CheckList应该补充而不是替代现有的挑战和用于测量语言模型性能的基准数据集。

“少量测试选择说明了除标准评估外系统测试的好处。根据基准精度结果,这些任务可能被视为“已解决”,但测试强调了各个方面的改进,特别是未能证明基本技能是手头任务的实际需求。”

ACL的其他值得注意的工作包括华盛顿大学教授Emily Bender和萨尔大学教授Alexander Koller的研究,该研究获得了最佳主题奖。该论文认为,大型神经网络NLP模型(例如GPT-3或BERT衍生物)的进步值得称赞,但媒体和学术界不应将大型神经网络理解为能够理解或理解的东西,而清晰和谦逊是在定义含义或理解之类的想法时,需要在NLP领域中使用。

报告写道:“虽然大型神经语言模型很可能最终成为人类对自然语言理解的全面解决方案的重要组成部分,但它们几乎不是解决这一巨大挑战的解决方案。”

最后,美国陆军研究实验室,伊利诺伊大学,厄巴纳香槟分校和哥伦比亚大学的系统因其名为GAIA的系统而获得了最佳演示论文奖,该系统可用于对图片和视频等多媒体文本进行查询。

中国联通:已累计开通5G基站33.2万站 到今年年底预计超过38万个
饿了么现已入驻1000所高校食堂 校园内平均20分钟送达
谷歌在西雅图附近规划新园区 在亚马逊和微软总部所在地扩大触角
我国国家顶级域名“.CN”数量超过2300万个 IPv6规模化部署提速
邬贺铨:截至8月我国IPv6活跃用户达3.65亿 占互联网用户之比达40.32%
苹果、谷歌、英特尔等公司已经加入行业组织美国“6G联盟”
微软今天正式终止Win7嵌入式系统支持 花钱可买三年补丁
OPPO将发布首款概念级应用OPPO CybeReal 针对AR领域

[ 最新资讯 ]

始祖鸟之家双面派对,设计师系列惊艳亮相

  11月24日,被誉为户外爱马仕的始祖鸟(ARC’TERYX)全新概念店——始祖鸟之家在全国顶级商圈北京国贸开业了。现场门店实拍图片   ...

曝小米显示器34寸本月最后一单出货后将暂停供应 因三星无屏供应原因

  本月初,视讯堂消息称小米的 34 寸带鱼屏显示器型号,之后可能无法再保持 1999 元的价格进行销售。今天,视讯堂发布最新消息,称小 ...

微星Stealth 15M超轻游戏本纯净白即将上架 屏幕为15.6英寸

  根据微星笔记本官方的消息,微星 Stealth 15M (纯净白)即将上架预约,这款笔记本是首款采用 11 代低压酷睿 + RTX 2060 配置的 ...

EG7今天宣布收购《机甲战士5》开发商Piranha Games 增加其游戏公司种类

  Enad Global 7(EG7)今天(11 27)宣布收购《机甲战士5》开发商Piranha Games,增加了其游戏公司的种类。  EG7已同意以2410万美元的 ...

华米将推出GTS 2 mini手表:将于12月1日发布 外观更轻薄更精致

  根据华米创始人黄汪的消息,华米将推出 GTS 2 mini 手表,外观更轻薄更精致。    根据华米微博的消息, GTS 2 mini 手表将 ...

冬季必看的小黑裤穿搭指南|九牧王男裤专家

  伴随着秋冬而来的除了购物欲还有穿搭热情,但如果你正苦于衣服少、缺乏穿搭灵感,那么,一条百搭、舒适的九牧王小黑裤,或许可以帮到你,只 ...