谷歌发布一种用于评估自然语言模型的工具集

发布时间:2020-08-17 15:45:08 【来源:

隶属于Google的研究人员今天发布了语言可解释性工具(LIT),这是一个开放源代码,与框架无关的平台和API,用于可视化,理解和审核自然语言处理模型。它着重于有关AI模型行为的问题,例如为什么模型做出某些预测以及为什么它们在输入语料库中表现不佳。LIT将聚合分析合并到基于浏览器的界面中,该界面旨在使用户能够探索文本生成行为。

建模的进步已导致在自然语言处理任务上实现了空前的性能,但是仍然存在有关模型根据偏见和启发式行为的趋势的疑问。没有分析的灵丹妙药-数据科学家必须经常采用多种技术来建立对模型行为的全面理解。

这就是LIT的用武之地。该工具集经过精心设计,因此用户可以在可视化和分析之间进行切换,以测试假设并验证数据集上的那些假设。可以动态添加新的数据点,并立即显示它们对模型的影响,而并排比较允许同时显示两个模型或两个数据点。LIT可以计算并显示整个数据集的指标,以关注模型性能中的模式,包括当前选择,手动生成的子集和自动生成的子集。

LIT支持各种自然语言处理任务,例如分类,语言建模和结构化预测。它的创建者声称,它是可扩展的,可以针对新颖的工作流程进行重新配置,并且这些组件是独立的,可移植的,并且易于实现。Google研究人员说,LIT可以与任何可以从Python运行的模型一起使用,包括TensorFlow,PyTorch和服务器上的远程模型。而且它的进入门槛很低,只需少量代码即可添加模型和数据。

为了证明LIT的鲁棒性,研究人员在情绪分析,性别偏见和模型调试中进行了一系列案例研究。他们展示了工具集如何在公开的OntoNotes数据集上训练的共参照模型中暴露偏见,例如揭示了某些职业与高比例的男性工人有关。“在LIT的指标表中,我们可以按代词类型和真实的参考对象对选择进行切片,” LIT背后的Google开发人员在技术论文中写道。“在一组以男性为主的职业上,当地面真相与刻板印象相符时,我们看到该模型表现良好-例如,当答案是职业术语时,与男性代词相比,男性代词正确地解决了83%只有37.5%的时间。”

团队告诫说,LIT不能很好地扩展到大型语料库,并且对于训练时模型监视不是“直接”有用的。但是他们说,在不久的将来,该工具集将获得一些功能,例如反事实生成插件,序列和结构化输出类型的其他度量和可视化,以及为不同应用程序定制UI的更大能力。

现代和起亚今年前10个月出口逾9万辆电动汽车 同比增长71.3%
中芯国际称产能接近满载 14nm量产良率已达业界量产水准
OPPO和vivo申请绿厂蓝厂商标 引发网友关注
华为申请“HICAR SMART COCKPIT”等商标 国际分类为“科学仪器”
NASA为登月任务组装火箭 预计在2024年将第一位女性送上月球
特斯拉申请召回美国9136辆Model X及401辆Model Y
OPPO Reno5 Pro入网工信部:双曲面屏设计 矩阵式相机模组
特斯拉在欧洲涨价,下一批Model S在德国贵了4万

[ 最新资讯 ]

始祖鸟之家双面派对,设计师系列惊艳亮相

  11月24日,被誉为户外爱马仕的始祖鸟(ARC’TERYX)全新概念店——始祖鸟之家在全国顶级商圈北京国贸开业了。现场门店实拍图片   ...

曝小米显示器34寸本月最后一单出货后将暂停供应 因三星无屏供应原因

  本月初,视讯堂消息称小米的 34 寸带鱼屏显示器型号,之后可能无法再保持 1999 元的价格进行销售。今天,视讯堂发布最新消息,称小 ...

微星Stealth 15M超轻游戏本纯净白即将上架 屏幕为15.6英寸

  根据微星笔记本官方的消息,微星 Stealth 15M (纯净白)即将上架预约,这款笔记本是首款采用 11 代低压酷睿 + RTX 2060 配置的 ...

EG7今天宣布收购《机甲战士5》开发商Piranha Games 增加其游戏公司种类

  Enad Global 7(EG7)今天(11 27)宣布收购《机甲战士5》开发商Piranha Games,增加了其游戏公司的种类。  EG7已同意以2410万美元的 ...

华米将推出GTS 2 mini手表:将于12月1日发布 外观更轻薄更精致

  根据华米创始人黄汪的消息,华米将推出 GTS 2 mini 手表,外观更轻薄更精致。    根据华米微博的消息, GTS 2 mini 手表将 ...

冬季必看的小黑裤穿搭指南|九牧王男裤专家

  伴随着秋冬而来的除了购物欲还有穿搭热情,但如果你正苦于衣服少、缺乏穿搭灵感,那么,一条百搭、舒适的九牧王小黑裤,或许可以帮到你,只 ...