从数据集到NLP模型的语言表达不足的问题

发布时间:2020-08-05 15:45:41 【来源:

自然语言处理(NLP)管道如何全面支持广泛使用的语言?克拉克森大学和爱荷华大学研究人员合着的一项最新研究试图调查NLP工具对八种方言的理解程度:英语,中文,乌尔都语,波斯语,阿拉伯语,法语,西班牙语和塞内加尔语Wolof。他们的发现表明,即使在某种工具从技术上支持某种语言,阻止充分参与并导致某些声音表达不足的情况下,也存在警告。

典型的NLP管道涉及收集语料库,将其处理为文本,识别语言元素,训练模型,并使用这些模型回答特定问题。研究人员说,人们对某些语言在数据集中的代表性不足的程度已广为人知,但在整个NLP工具链中扩大影响的方式却鲜有讨论。

共同作者断言,绝大多数NLP工具都是用英语开发的,即使获得其他语言的支持,它们的鲁棒性,准确性和效率也往往落后于英语。对于BERT(一种用于自然语言处理的最先进的预训练技术)而言,开发人员发布了英语模型,随后发布了中文和多语言模型。但是,单语言模型比多语言模型保留了性能优势,英语和汉语的单语言模型都比英汉组合的模型好3%。此外,当针对具有有限计算资源的团队发布较小的BERT模型时,所有24种语言均为英语。

研究人员说,在管道的每个阶段都缺乏代表性,这增加了后期阶段的代表性。举例来说,多语言BERT模型是使用最大的Wikipedia文章数据库在排名前100的语言上进行训练的,但是在调整说话者数量时,数据库的大小和质量存在很大差异。它们不仅随语料库的文件大小和页面总数而变化,而且随维度(包括不包含内容的存根的百分比,编辑次数,使用该语言的管理员数量,用户总数以及活动用户。

例如,大约有:

全世界估计有11.9亿华语使用者,因此有112万条中文维基百科文章,每千名发言者总共0.94篇文章。

610万篇英文文章,或每1,000名讲者12.08条(全球5.05亿讲者)

160万西班牙语,或每1,000名讲者有3.42篇文章(全球有4.7亿讲者)

阿拉伯语的文章有104万条,每千名发言者有3.33篇(全球有3.15亿发言者)

222万篇法文文章,或每1,000名演讲者29.70条(全球7500万演讲者)

波斯语732,106篇文章,每千名发言者10.17篇文章(全球7200万发言者)

用乌尔都语撰写的155,298篇文章,或每千名演讲者的2.43篇文章(全世界有6,400万名演讲者

沃洛夫(Wolof)的1,393篇文章,或每千名发言者0.14篇文章(全球有1,000万名发言者

数据库的代表性甚至不如可能出现,因为并非所有使用该语言的人都可以访问Wikipedia。就中文而言,它已被中国政府禁止,因此维基百科中的中文文章更有可能来自台湾,香港,新加坡和海外的4000万华语使用者。

研究人员发现,某些语言的技术障碍也往往比其他语言更高。例如,他们用来从Wikipedia下载中文,英语,西班牙语,阿拉伯语,法语和波斯语语料库的脚本,波斯语的错误率是0.13%,汉语的错误率是0.02%,但是在500万篇英语文章中没有错误。对于Urdu和Wolof语料库,该脚本不兼容,因为它不支持其格式。

除了维基百科,研究人员还遇到了用各种语言组装电子书的问题,这些问题通常用于训练NLP模型。对于阿拉伯语和乌尔都语,许多标题以扫描图像而不是文本格式提供,要求光学字符识别工具进行处理,其准确度范围为70%至98%。对于中文电子书,研究人员使用光学字符工具在每行中错误地添加了空格。而且由于Wolof语言没有书面字符集,因此该团队被迫依赖可能会带来风格自由的英语,法语和阿拉伯语版本。

研究人员写道:“尽管在Wikipedia和BERT等项目上在多语言支持方面进行了巨大且令人称赞的投资,但我们仍在做出以NLP为指导的决策,这些决策系统性地显着地代表了世界许多国家的声音。”“我们记录了整个NLP工具链如何进一步放大NLP流程早期缺乏代表性(例如Wikipedia中的代表性)的情况,最终导致依赖易于使用的预训练模型有效地阻止了除资源最丰富的团队,包括各种声音。我们强调说多种语言的人在将其思想和表达方式充分纳入NLP得出的结论中所面临的困难,这些结论已被用来指导我们所有人的未来。”

中国联通:已累计开通5G基站33.2万站 到今年年底预计超过38万个
饿了么现已入驻1000所高校食堂 校园内平均20分钟送达
谷歌在西雅图附近规划新园区 在亚马逊和微软总部所在地扩大触角
我国国家顶级域名“.CN”数量超过2300万个 IPv6规模化部署提速
邬贺铨:截至8月我国IPv6活跃用户达3.65亿 占互联网用户之比达40.32%
苹果、谷歌、英特尔等公司已经加入行业组织美国“6G联盟”
微软今天正式终止Win7嵌入式系统支持 花钱可买三年补丁
OPPO将发布首款概念级应用OPPO CybeReal 针对AR领域

[ 最新资讯 ]

始祖鸟之家双面派对,设计师系列惊艳亮相

  11月24日,被誉为户外爱马仕的始祖鸟(ARC’TERYX)全新概念店——始祖鸟之家在全国顶级商圈北京国贸开业了。现场门店实拍图片   ...

曝小米显示器34寸本月最后一单出货后将暂停供应 因三星无屏供应原因

  本月初,视讯堂消息称小米的 34 寸带鱼屏显示器型号,之后可能无法再保持 1999 元的价格进行销售。今天,视讯堂发布最新消息,称小 ...

微星Stealth 15M超轻游戏本纯净白即将上架 屏幕为15.6英寸

  根据微星笔记本官方的消息,微星 Stealth 15M (纯净白)即将上架预约,这款笔记本是首款采用 11 代低压酷睿 + RTX 2060 配置的 ...

EG7今天宣布收购《机甲战士5》开发商Piranha Games 增加其游戏公司种类

  Enad Global 7(EG7)今天(11 27)宣布收购《机甲战士5》开发商Piranha Games,增加了其游戏公司的种类。  EG7已同意以2410万美元的 ...

华米将推出GTS 2 mini手表:将于12月1日发布 外观更轻薄更精致

  根据华米创始人黄汪的消息,华米将推出 GTS 2 mini 手表,外观更轻薄更精致。    根据华米微博的消息, GTS 2 mini 手表将 ...

冬季必看的小黑裤穿搭指南|九牧王男裤专家

  伴随着秋冬而来的除了购物欲还有穿搭热情,但如果你正苦于衣服少、缺乏穿搭灵感,那么,一条百搭、舒适的九牧王小黑裤,或许可以帮到你,只 ...