研究人员将强化学习与自然语言处理相结合以逃避Grue怪兽

发布时间:2020-07-02 14:39:57 【来源:

来自佐治亚理工学院和微软研究院的AI研究人员创建了将强化学习和自然语言处理(NLP)相结合的AI,在九种文字冒险游戏中有八种表现优于最先进的问答AI。研究人员说,MC!Q * BERT模型是第一个持续克服瓶颈的已知学习代理,瓶颈是在Zork(第一个交互式计算机游戏之一)中,一名玩家被Grue怪物吞噬。

MC!Q * BERT部分由Q * BERT制成,Q * BERT是一种深度强化学习代理,通过询问有关世界的问题来学习并构建知识图。在整个游戏过程中进行的每个观察都会生成一系列问题,然后将其转换并添加到知识图中。

Q * BERT基于KG-A2C,这是今年早些时候由佐治亚理工大学博士生Prithviraj Ammanabrolu在ICLR上发布的一种在NLP动作空间中使用强化学习的方法。

为了回答问题,Q * BERT使用ALBERT的预训练版本,它是BERT语言模型的变体。然后,使用SQuAD基准和新创建的文本冒险游戏问答对数据集Jericho-QA对模型进行微调。Jericho-QA包含超过200,000个问题-答案配对。本方法在本月初发表在预印本仓库arXiv上的一篇论文中作了详细介绍,该论文的标题为“如何避免被肮脏所吞噬:文本世界的结构化探索策略”。

作者在论文中写道:“我们提出了自动检测瓶颈并有效利用状态空间中自然分区优势的策略的技术。”“我们将文字游戏视为能够与人类进行长期对话的系统的简化类似物,例如协助规划复杂任务,以及离散规划领域(如物流)。”

要使AI能够在文字冒险游戏中取得成功,面临的主要挑战是克服瓶颈,或者通常会困住和淘汰玩家的情况。例如,在佐尔克(Zork),当格鲁怪兽吞噬没有灯光的玩家时,就会出现常见的瓶颈。这意味着AI必须识别并执行一系列特定的动作才能前进。作者说,许多现有模型未能消除此类瓶颈。但是,他们断言,Q * BERT自动检测瓶颈,然后制定策略来克服挑战。依赖关系图考虑了Q * BERT为成功而必须收集的项目以及为了前进而必须访问的游戏位置。

所有实验均在Microsoft创建的Jericho模拟器中进行。如果代理商未能在模拟环境中获得奖励,作者就会理解为这意味着瓶颈可能会使其卡住。一旦确定,该代理将使用一种称为模块化链接的方法来“回溯到以前访问的状态”并克服瓶颈。

在其他最新的NLP新闻中,上周Google AI与华盛顿大学和普林斯顿大学的合作伙伴宣布启动EfficientQA竞赛,这是创建能够存储知识的NLP的难题。表现最佳的模型将与人类琐事专家实时竞争。

新鲜又齐全,说的就是地利生鲜
“千万美丽计划”亮相双十一 JUNPING携手植观、可思美让你美丽一整年
用科大讯飞英语通学英语想不得高分都难,家长一致推荐
术兑APP强势上线,开启“加油省钱”新时代
打造国民品牌·佳歌集成灶与LKK洛可可正式签约战略合作
快来央视频,pick你心中的“中国好音乐”
丽家宝贝与爱儿可牵手迪士尼联名款湿巾惊艳亮相!
​首汽约车荣获“全国交通运输系统抗疫先进集体”再次斩获行业第一

[ 最新资讯 ]

始祖鸟之家双面派对,设计师系列惊艳亮相

  11月24日,被誉为户外爱马仕的始祖鸟(ARC’TERYX)全新概念店——始祖鸟之家在全国顶级商圈北京国贸开业了。现场门店实拍图片   ...

曝小米显示器34寸本月最后一单出货后将暂停供应 因三星无屏供应原因

  本月初,视讯堂消息称小米的 34 寸带鱼屏显示器型号,之后可能无法再保持 1999 元的价格进行销售。今天,视讯堂发布最新消息,称小 ...

微星Stealth 15M超轻游戏本纯净白即将上架 屏幕为15.6英寸

  根据微星笔记本官方的消息,微星 Stealth 15M (纯净白)即将上架预约,这款笔记本是首款采用 11 代低压酷睿 + RTX 2060 配置的 ...

EG7今天宣布收购《机甲战士5》开发商Piranha Games 增加其游戏公司种类

  Enad Global 7(EG7)今天(11 27)宣布收购《机甲战士5》开发商Piranha Games,增加了其游戏公司的种类。  EG7已同意以2410万美元的 ...

华米将推出GTS 2 mini手表:将于12月1日发布 外观更轻薄更精致

  根据华米创始人黄汪的消息,华米将推出 GTS 2 mini 手表,外观更轻薄更精致。    根据华米微博的消息, GTS 2 mini 手表将 ...

冬季必看的小黑裤穿搭指南|九牧王男裤专家

  伴随着秋冬而来的除了购物欲还有穿搭热情,但如果你正苦于衣服少、缺乏穿搭灵感,那么,一条百搭、舒适的九牧王小黑裤,或许可以帮到你,只 ...