谷歌发布一种用于评估自然语言模型的工具集

发布时间：2020-08-17 15:45:08 【来源：】

隶属于Google的研究人员今天发布了语言可解释性工具(LIT)，这是一个开放源代码，与框架无关的平台和API，用于可视化，理解和审核自然语言处理模型。它着重于有关AI模型行为的问题，例如为什么模型做出某些预测以及为什么它们在输入语料库中表现不佳。LIT将聚合分析合并到基于浏览器的界面中，该界面旨在使用户能够探索文本生成行为。

建模的进步已导致在自然语言处理任务上实现了空前的性能，但是仍然存在有关模型根据偏见和启发式行为的趋势的疑问。没有分析的灵丹妙药-数据科学家必须经常采用多种技术来建立对模型行为的全面理解。

这就是LIT的用武之地。该工具集经过精心设计，因此用户可以在可视化和分析之间进行切换，以测试假设并验证数据集上的那些假设。可以动态添加新的数据点，并立即显示它们对模型的影响，而并排比较允许同时显示两个模型或两个数据点。LIT可以计算并显示整个数据集的指标，以关注模型性能中的模式，包括当前选择，手动生成的子集和自动生成的子集。

LIT支持各种自然语言处理任务，例如分类，语言建模和结构化预测。它的创建者声称，它是可扩展的，可以针对新颖的工作流程进行重新配置，并且这些组件是独立的，可移植的，并且易于实现。Google研究人员说，LIT可以与任何可以从Python运行的模型一起使用，包括TensorFlow，PyTorch和服务器上的远程模型。而且它的进入门槛很低，只需少量代码即可添加模型和数据。

为了证明LIT的鲁棒性，研究人员在情绪分析，性别偏见和模型调试中进行了一系列案例研究。他们展示了工具集如何在公开的OntoNotes数据集上训练的共参照模型中暴露偏见，例如揭示了某些职业与高比例的男性工人有关。“在LIT的指标表中，我们可以按代词类型和真实的参考对象对选择进行切片，” LIT背后的Google开发人员在技术论文中写道。“在一组以男性为主的职业上，当地面真相与刻板印象相符时，我们看到该模型表现良好-例如，当答案是职业术语时，与男性代词相比，男性代词正确地解决了83%只有37.5%的时间。”

团队告诫说，LIT不能很好地扩展到大型语料库，并且对于训练时模型监视不是“直接”有用的。但是他们说，在不久的将来，该工具集将获得一些功能，例如反事实生成插件，序列和结构化输出类型的其他度量和可视化，以及为不同应用程序定制UI的更大能力。

上一篇：史诗游戏与苹果和谷歌的对抗在世界范围内广为流传但这是冒险的
下一篇：电子艺界将其订阅游戏服务更名为EA Play