DeepMind的Dreamer AI从过去中学到东西来预测未来
发布时间:2019-12-24 11:44:13 【来源:】
一些AI系统通过借鉴过去的经验来代表世界,从而在充满挑战的环境中实现目标。他们将它们概括为新颖的情况,使他们即使在以前从未遇到过的设置中也能完成任务。事实证明,强化学习(一种利用奖励将软件策略推向目标的培训技术)特别适合于学习总结代理经验的世界模型,并通过扩展来促进对新颖行为的学习。
来自Google,Alphabet子公司DeepMind和多伦多大学的研究人员寻求与代理商Dreamer一起开发该技术,该代理商旨在内部化世界模型,并通过“想象”其长期成果来预先计划选择行动。他们说,它不仅适用于任何学习目标,而且Dreamer在数据效率,计算时间以及最终性能方面都超过了现有方法。
在AI代理的整个生命周期中,无论是交错还是并行,Dreamer都会学习潜在的动力学模型,以预测动作和观察结果的回报。在这种情况下,“潜在动力学模型”是指从图像输入中学习并执行计划以收集新经验的模型。“潜在”位表示它依赖于隐藏状态或潜在状态的紧凑序列,这使它能够学习更多抽象的表示形式,例如对象的位置和速度。有效地,使用编码器组件将来自输入图像的信息集成到隐藏状态中,然后将隐藏状态及时向前投影以预期图像和奖励。
Dreamer使用了一个多部分的潜在动力学模型,该模型的结构有些复杂。表示位对观察和动作进行编码,而过渡位则在未看到会引起观察的情况下预见状态。第三个组件(奖励组件)根据给定的模型状态来计划奖励,而行为模型将实施学习的策略并旨在预测可解决想象的环境的行为。最终,价值模型估算了行为模型所实现的预期想象的报酬,而观察模型则提供了反馈信号。
L Brands在第一季度的强劲销售提振
这家零售公司宣布计划分拆 本月初的《维多利亚的秘密》,该公司公布 了截至5月1日的季度收入为30亿美元,比 去年疫情期间的16 5亿美 ...
L Brands在第一季度的强劲销售提振
这家零售公司宣布计划分拆 本月初的《维多利亚的秘密》,该公司公布 了截至5月1日的季度收入为30亿美元,比 去年疫情期间的16 5亿美 ...
Shopee第一季度亏损4.22亿美元
新加坡的海集团,旗下拥有电子零售商Shopee,今天报告说,其截至3月的三个月净亏损从去年的281亿$扩大至4 22亿$,日经亚洲写道。 这 ...
阿雷佐公司的第一季度利润增长了310%
巴西鞋类和配饰集团在2021年第一季度的调整后净收入为2960万巴西雷亚尔(560万美元),比去年同期的720万雷亚尔(135万美元)增长了310 7% ...
专业调谐器称Apple TV的自动校准器无法提供
苹果在四月推出了带有新Apple TV 4K的电视校准功能。颜色平衡选项使用带有Face ID的iPhone上的前置传感器来优化Apple流媒体盒(包括2 ...
华纳传媒与Discovery宣布合并 美国媒体行业其他公司不得不采取应对措施
据报道,由于 AT&T 已经决定分拆华纳传媒并将其与 Discovery 合并,美国媒体行业的其他公司,尤其是规模较小的公司将面临新的压力 ...
- Copyright © 2013-2020 All rights reserved
- 联系我们 QQ: 3 38 52 5 5 3 9 0