DeepMind的AI自动生成强化学习算法

发布时间:2020-07-21 14:47:31 【来源:

在预印本服务器Arxiv.org上发表的一项研究中,DeepMind研究人员描述了一种强化学习算法生成技术,该技术通过与环境交互来发现预测内容以及如何学习。他们声称,生成的算法在一系列具有挑战性的Atari视频游戏中表现出色,实现了“非平凡”的性能,表明该技术具有普遍性。

强化学习算法(使软件代理能够使用反馈通过反复试验在环境中学习的算法)根据几种规则之一来更新代理的参数。这些规则通常是通过多年研究发现的,从数据中自动发现可能会导致算法更有效,或者算法更适合特定环境。

DeepMind的解决方案是一个元学习框架,可共同发现特定代理应预测的内容以及如何使用这些预测来改进策略。(在强化学习中,“策略”定义了学习主体在给定时间的行为方式。)他们的架构-学习策略梯度(LGP)-允许更新规则(即元学习者)决定主体的行为当框架通过多个学习代理发现规则时,输出应该是预测性的,每个学习代理都与不同的环境交互。

在实验中,研究人员直接在复杂的Atari游戏(包括Tutankham,Breakout和Yars'Revenge)上评估了液化石油气。他们发现,与现有算法相比,它可以“合理地”推广到游戏中,尽管训练环境由基本任务比Atari游戏简单得多的环境组成。此外,受液化石油气培训的特工在不依赖手工设计的强化学习组件的情况下,成功实现了14场比赛的“超人”表现。

合著者指出,LPG仍落后于某些高级强化学习算法。但是在实验期间,随着训练环境数量的增加,其泛化性能迅速提高,这表明一旦有更多的环境可用于元训练,发现通用增强学习算法可能是可行的。

“通过以数据驱动的方式使发现过程自动化,所提出的方法具有极大地加速发现新的强化学习算法的过程的潜力。如果建议的研究方向成功,这将使研究范式从人工开发强化学习算法转变为构建适当的环境集,从而使所得算法高效。”研究人员写道。“此外,提出的方法还可以用作辅助强化学习研究人员开发和改进其手工设计算法的工具。在这种情况下,根据研究人员提供的输入架构,可以使用建议的方法来了解良好更新规则的外观。

中国联通:已累计开通5G基站33.2万站 到今年年底预计超过38万个
饿了么现已入驻1000所高校食堂 校园内平均20分钟送达
谷歌在西雅图附近规划新园区 在亚马逊和微软总部所在地扩大触角
我国国家顶级域名“.CN”数量超过2300万个 IPv6规模化部署提速
邬贺铨:截至8月我国IPv6活跃用户达3.65亿 占互联网用户之比达40.32%
苹果、谷歌、英特尔等公司已经加入行业组织美国“6G联盟”
微软今天正式终止Win7嵌入式系统支持 花钱可买三年补丁
OPPO将发布首款概念级应用OPPO CybeReal 针对AR领域

[ 最新资讯 ]

始祖鸟之家双面派对,设计师系列惊艳亮相

  11月24日,被誉为户外爱马仕的始祖鸟(ARC’TERYX)全新概念店——始祖鸟之家在全国顶级商圈北京国贸开业了。现场门店实拍图片   ...

曝小米显示器34寸本月最后一单出货后将暂停供应 因三星无屏供应原因

  本月初,视讯堂消息称小米的 34 寸带鱼屏显示器型号,之后可能无法再保持 1999 元的价格进行销售。今天,视讯堂发布最新消息,称小 ...

微星Stealth 15M超轻游戏本纯净白即将上架 屏幕为15.6英寸

  根据微星笔记本官方的消息,微星 Stealth 15M (纯净白)即将上架预约,这款笔记本是首款采用 11 代低压酷睿 + RTX 2060 配置的 ...

EG7今天宣布收购《机甲战士5》开发商Piranha Games 增加其游戏公司种类

  Enad Global 7(EG7)今天(11 27)宣布收购《机甲战士5》开发商Piranha Games,增加了其游戏公司的种类。  EG7已同意以2410万美元的 ...

华米将推出GTS 2 mini手表:将于12月1日发布 外观更轻薄更精致

  根据华米创始人黄汪的消息,华米将推出 GTS 2 mini 手表,外观更轻薄更精致。    根据华米微博的消息, GTS 2 mini 手表将 ...

冬季必看的小黑裤穿搭指南|九牧王男裤专家

  伴随着秋冬而来的除了购物欲还有穿搭热情,但如果你正苦于衣服少、缺乏穿搭灵感,那么,一条百搭、舒适的九牧王小黑裤,或许可以帮到你,只 ...