DeepMind的Dreamer AI从过去中学到东西来预测未来

发布时间:2019-12-24 11:44:13 【来源:

一些AI系统通过借鉴过去的经验来代表世界,从而在充满挑战的环境中实现目标。他们将它们概括为新颖的情况,使他们即使在以前从未遇到过的设置中也能完成任务。事实证明,强化学习(一种利用奖励将软件策略推向目标的培训技术)特别适合于学习总结代理经验的世界模型,并通过扩展来促进对新颖行为的学习。

来自Google,Alphabet子公司DeepMind和多伦多大学的研究人员寻求与代理商Dreamer一起开发该技术,该代理商旨在内部化世界模型,并通过“想象”其长期成果来预先计划选择行动。他们说,它不仅适用于任何学习目标,而且Dreamer在数据效率,计算时间以及最终性能方面都超过了现有方法。

在AI代理的整个生命周期中,无论是交错还是并行,Dreamer都会学习潜在的动力学模型,以预测动作和观察结果的回报。在这种情况下,“潜在动力学模型”是指从图像输入中学习并执行计划以收集新经验的模型。“潜在”位表示它依赖于隐藏状态或潜在状态的紧凑序列,这使它能够学习更多抽象的表示形式,例如对象的位置和速度。有效地,使用编码器组件将来自输入图像的信息集成到隐藏状态中,然后将隐藏状态及时向前投影以预期图像和奖励。

Dreamer使用了一个多部分的潜在动力学模型,该模型的结构有些复杂。表示位对观察和动作进行编码,而过渡位则在未看到会引起观察的情况下预见状态。第三个组件(奖励组件)根据给定的模型状态来计划奖励,而行为模型将实施学习的策略并旨在预测可解决想象的环境的行为。最终,价值模型估算了行为模型所实现的预期想象的报酬,而观察模型则提供了反馈信号。

深圳罗湖打造“一个中枢五个中心” 建成中国黄金钻石交易中枢体系
广西黄金珠宝产业园优化全产业链发展 目前为止已入驻企业37家
国内知名珠宝企业齐亮相首届消博会 展现民族品牌新形象
吉尔吉斯斯坦或将取消珠宝产品生产设备进口的增值税 包括精矿砂、合金等
潍坊昌乐“中国宝石城”化身“潍坊市电商小镇 珠宝商变身为“直播网红”
广州发布全国首份围绕新发展格局支持钻石产业专项政策 培育壮大产业集聚带
未来5年 深圳罗湖构建全球竞争力和国际影响力的黄金钻石金融中心
中国珠宝成为首届中国国际消费品博览会唯一指定进口代理商

[ 最新资讯 ]

L Brands在第一季度的强劲销售提振

  这家零售公司宣布计划分拆 本月初的《维多利亚的秘密》,该公司公布 了截至5月1日的季度收入为30亿美元,比 去年疫情期间的16 5亿美 ...

L Brands在第一季度的强劲销售提振

  这家零售公司宣布计划分拆 本月初的《维多利亚的秘密》,该公司公布 了截至5月1日的季度收入为30亿美元,比 去年疫情期间的16 5亿美 ...

Shopee第一季度亏损4.22亿美元

  新加坡的海集团,旗下拥有电子零售商Shopee,今天报告说,其截至3月的三个月净亏损从去年的281亿$扩大至4 22亿$,日经亚洲写道。  这 ...

阿雷佐公司的第一季度利润增长了310%

  巴西鞋类和配饰集团在2021年第一季度的调整后净收入为2960万巴西雷亚尔(560万美元),比去年同期的720万雷亚尔(135万美元)增长了310 7% ...

专业调谐器称Apple TV的自动校准器无法提供

  苹果在四月推出了带有新Apple TV 4K的电视校准功能。颜色平衡选项使用带有Face ID的iPhone上的前置传感器来优化Apple流媒体盒(包括2 ...

华纳传媒与Discovery宣布合并 美国媒体行业其他公司不得不采取应对措施

  据报道,由于 AT&T 已经决定分拆华纳传媒并将其与 Discovery 合并,美国媒体行业的其他公司,尤其是规模较小的公司将面临新的压力 ...