人类可以在应对各种情况时在大脑中事先进行充分思考,那么人工智能也可以吗?近日,由谷歌大脑研究科学家David Ha与瑞士AI实验室IDSIA负责人Jürgen Schmidhuber(他也是LSTM的提出者)共同提出的“世界模型”可以让人工智能在“梦境”中对外部环境的未来状态进行预测,大幅提高完成任务的效率。这篇论文一经提出便吸引了人们的热烈讨论。
人类基于有限的感官感知开发关于世界的心智模型,我们的所有决策和行为都是基于这一内部模型。系统动力学之父Jay Wright Forrester将这一心智模型定义为:
“我们周围的世界在我们的大脑中只是一个模型。没有人的大脑可以想象整个世界、所有政府或国家。他只选择概念及其之间的关系,然后使用它们表征真实的系统。”[4]
为了处理我们日常生活中的海量信息,大脑学习对信息进行时空抽象化表征。我们能够观察一个场景,并记住其抽象描述[5, 6]。有证据表明我们在任意时刻的感知都由大脑基于内部模型所做的未来预测而决定[7, 8]。
图2:我们看到的事物基于大脑对未来的预测(Kitaoka, 2002; Watanabe et al., 2018)。
一种理解大脑中预测模型的方式是:它可能不是预测未来,而是根据给出的当前运动动作预测未来的感官数据[12, 13]。在面对危险时,我们能够本能地根据该预测模型来行动,并执行快速的反射行为[14],无需有意识地规划一系列动作。
以棒球为例[15]。棒球击球手只有几毫秒时间来决定如何挥动球棒,而眼睛的视觉信号传到大脑所需时间比这更少。击球手能够快速根据大脑对未来的预测来行动,无需有意识地展开多个未来场景再进行规划[16]。
在很多强化学习(RL)[17, 18, 19]问题中,人工智能体还受益于过去和现在状态的良好表征,以及优秀的未来预测模型[20, 21],最好是在通用计算机上实现的强大预测模型,如循环神经网络(RNN)[22, 23, 24]。
大型RNN是具备高度表达能力的模型,可以学习数据丰富的时空表征。但是,文献中很多无模型RL方法通常仅使用具备少量参数的小型神经网络。RL算法通常受限于信用分配问题(credit assignment problem),该挑战使传统的RL算法很难学习大型模型的数百万权重,因此在实践中常使用小型网络,因为它们在训练过程中迭代速度更快,可以形成优秀策略。
理想情况下,我们希望能够高效训练基于大型RNN网络的智能体。反向传播算法[25, 26, 27]可用于高效训练大型神经网络。本研究中,我们试图通过将智能体分为大型世界模型和小型控制器模型,来训练能够解决RL任务的大型神经网络。我们首先用无监督的方式训练一个大型神经网络,来学习智能体世界的模型,然后训练小型控制器模型来使用该世界模型执行任务。小型控制器使得算法聚焦于小搜索空间的信用分配问题,同时无需牺牲大型世界模型的容量和表达能力。通过世界模型来训练智能体,我们发现智能体学会一个高度紧凑的策略来执行任务。
尽管存在大量与基于模型的强化学习相关的研究,但本文并不是对该领域当前状况进行综述。本文旨在从1990—2015年一系列结合RNN世界模型和控制器的论文[22, 23, 24, 30, 31]中提炼出几个关键概念。我们还讨论了其他相关研究,它们也使用了类似的“学习世界模型,再使用该模型训练智能体”的思路。
本文提出了一种简化框架,我们使用该框架进行实验,证明了这些论文中的一些关键概念,同时也表明这些思路可以被高效应用到不同的RL环境中。在描述方法论和实验时,我们使用的术语和符号与[31]类似。
2.智能体模型
我们提出一种由人类认知系统启发而来的简单模型。在该模型中,我们的智能体有一个视觉感知模块,可以把所见压缩进一个小的表征性代码。它同样有一个记忆模块,可以根据历史信息对未来代码做预测。最后,智能体还有一个决策模块,只基于由其视觉和记忆组件创建的表征来制定行动。
图4:我们的智能体包含紧密相连的三个模块:视觉(V)、记忆(M)和控制器(C)。
2.1. VAE (V)模型
环境在每一时间步上为我们的智能体提供一个高维输入观测,这一输入通常是视频序列中的一个2D图像帧。VAE模型的任务是学习每个已观测输入帧的抽象压缩表征。
图5:VAE的流程图。
在我们的试验中,我们使用一个变分自编码器(VAE) (Kingma & Welling, 2013; Jimenez Rezende et al., 2014)作为V模型。
2.2. MDN-RNN (M)模型
尽管在每一时间帧上压缩智能体的所见是V模型的任务,我们也想压缩随着时间发生的一切变化。为达成这一目的,我们让M模型预测未来,它可以充当V预期产生的未来z向量的预测模型。由于自然中的很多复杂环境是随机的,我们训练RNN以输出一个概率密度函数p(z)而不是一个确定性预测z。
2.3.控制器(C)模型
在环境的展开过程中,控制器(C)负责决定动作进程以最大化智能体期望的累加奖励。在我们的试验中,我们尽可能使C模型简单而小,并把V和M分开训练,从而智能体的绝大多数复杂度位于世界模型(V和M)之中。
2.4.合并V、M和C
下面的流程图展示了V、M和C如何与环境进行交互:
图8:智能体模型的流程图。原始的观察每个时间步t到zt首先在V上进行处理。C的输入是隐向量zt在每个时间步上与M隐藏态的串接。随后C会输出动作矢量以控制motor,这会影响整个环境。随后M会以zt作为输入,生成时间t 1的状态ht 1。
3.Car Racing实验
在这一章节中,我们描述了如何训练前面所述的智能体模型,并用来解决Car Racing任务。就我们所知,我们的智能体是解决该任务并获得预期分数的第一个解决方案。
总结而言,Car Racing实验可以分为以下过程:
1.从随机策略中收集10000个rollouts。
2.训练VAE(V)将视频帧编码为32维的隐向量z。
3.训练MDN-RNN(M)建模概率分布P(z_{t 1} | a_t, z_t, h_t)。
4.定义控制器(C)为a_t = W_c [z_t, h_t] b_c。
5.使用CMA-ES求解W_c和b_c而最大化预期累积奖励。
表1:多种方法实现的CarRacing-v0分数。
因为我们的世界模型能够对未来建模,因此我们能自行假设或预想赛车场景。给定当前状态,我们可以要求模型产生z_{t 1}的概率分布,然后从z_{t 1}中采样并作为真实世界的观察值。我们可以将已训练的C放回由M生成的预想环境中。下图展示了模型所生成的预想环境,而该论文的在线版本展示了世界模型在预想环境中的运行。
图13:我们的智能体在自己的预想环境或“梦”中学习驾驶。在这里,我们将已训练策略部署到从MDN-RNN生成的伪造环境中,bintonggu并通过VAE的解码器展示。在演示中,我们可以覆盖智能体的行动并调整τ以控制由M生成环境的不确定性。
4. VizDoom实验
如果我们的世界模型足够准确,足以处理手边的问题,那么我们应该能够用实际环境来替换世界模型。毕竟,我们的智能体不直接观察现实,而只是观察世界模型呈现给它的事物。在该实验中,我们在模仿VizDoom环境的世界模型所生成的幻觉中训练智能体。
经过一段时间训练后,我们的控制器学会在梦境中寻路,逃离M模型生成怪兽的致命火球攻击(fireballs shot)。
图15:我们的智能体发现一个策略可以逃避幻境中的火球。
我们把在虚拟幻境中训练的智能体放在原始VizDoom场景中进行测试。
图16:将智能体在幻觉RNN环境中学到的策略部署到真实的VizDoom环境中。
由于我们的世界模型只是该环境的近似概率模型,它偶尔会生成不遵循真实环境法则的轨迹。如前所述,世界模型甚至无法确切再现真实环境中房间另一端的怪兽数量。就像知道空中物体总会落地的孩子也会想象存在飞越苍穹的超级英雄。为此,我们的世界模型将被控制器利用,即使在真实环境中此类利用并不存在。
图18:智能体在多次运行中被火球击中后,发现了自动熄灭火球的对抗策略。
5.迭代训练过程
在我们的实验中,任务相对简单,因此使用随机策略收集的数据集可以训练出较好的世界模型。但是如果环境复杂度增加了呢?在难度较大的环境中,在智能体学习如何有策略地穿越其世界后,它也仅能获取世界的一部分知识。
更复杂的任务则需要迭代训练。我们需要智能体探索自己的世界,不断收集新的观测结果,这样其世界模型可以不断改善和细化。迭代训练过程(Schmidhuber, 2015a)如下:
1.使用随机模型参数初始化M、C。
2.在真实环境中试运行N次。智能体可能在运行过程中学习。将运行中的所有动作a_t和观测结果x_t保存在存储设备上。
3.训练M对P(x_t 1, r_t 1, a_t 1, d_t 1|x_t, a_t, h_t)进行建模。
4.如果任务未完成,则返回步骤2。
论文:World Models
人工智能模拟大脑需要多少能量(模拟世界的模型)
2024-11-06 06:56:31 作者:玩文字游戏 网址:https://m.xinb2b.cn/know/cfk284717.html
- 猎人笔记第一章摘抄加赏析300字(休闲狩猎技巧猎物----如何阅读一本书读后感)
- 2024-11-06休闲狩猎技巧猎物----如何阅读一本书读后感从前有位父亲带着三个儿子到草原上去打猎在到达目的地,一切准备得当,开始行动之前,父亲向三个儿子提出了一个问题:“你得到或将得到了什么呢?老大回答道:“我看到了我们一家人其乐融融的在一起,看到了这茫茫无。
- 赤壁之战之前曹操有多少兵(真实的赤壁之战)
- 2024-11-06真实的赤壁之战《三国演义》里面关于赤壁之战的描述是:曹操带着80万大军南下,攻打刘备、孙权在曹操的重压之下,孙刘组成了联盟,并且通过了借东风将黄盖的火船送到了赤壁岸边的曹营,最终曹操惨败,退回到了北方事实上小说里面。
- 消费市场较快增长(消费市场回暖实体商业升温)
- 2024-11-06消费市场回暖实体商业升温烟火气就是经济的活力连日来,记者走访各大商场发现,伴随着税收优惠政策落地、商铺减租免租、专项消费券持续放送,全省商圈经济开始复苏,城市烟火气持续回升山西转型综改示范区税务局提供的数据显示,截至5月底,。
- 四德广场舞完整版(健身广场舞展示大赛暨颁奖典礼8月7日举行)
- 2024-11-06健身广场舞展示大赛暨颁奖典礼8月7日举行“四德歌”健身广场舞展示大赛比赛现场图为威海代表队参赛选手集体亮相枣庄代表队队长携一家三口齐上阵齐鲁网济南8月6日讯(记者白少光刘焱)在第7个全民健身日到来之际,8月6日至7日,由省文明办、省妇联、省。
- 英国王子传闻(英国妹子遇他人打喷嚏或致死)
- 2024-11-06英国妹子遇他人打喷嚏或致死【英国】26岁女子患罕见疾病他人打喷嚏可令其死亡据英国《每日邮报》报道,家住英国威尔士南部地区的汉娜•埃文斯(HannahEvans)是一位年轻的班主任老师,据悉,26岁的汉娜被诊断出患有大规模细胞活。
- 代理服务器设置该如何设置(设置代理服务器的方法)
- 2024-11-06设置代理服务器的方法所谓代理服务器就是一种关于服务器的安全功能,它一般是用来帮助我们连接国外的网络的在我们日常的工作中,有的时候会需要用到外网,但要上外网就要设置代理服务器但是要怎么来设置这个代理服务器呢?不要着急,今天。
- 贵宾犬中什么最好(贵宾犬最受欢迎的几种毛色)
- 2024-11-06贵宾犬最受欢迎的几种毛色贵宾犬的毛色众多,在挑选毛色的时候往往让铲屎官们无从下手今天就来介绍贵宾犬几种比较受欢迎的毛色,拜托选择困难一、红棕色红棕色是贵宾犬最常见的颜色了,因为这个颜色较为鲜艳,所以一旦做好造型就会非常适合自。
- 手机卡可以申请暂时停机吗(芜湖千名未实名手机用户单向停机)
- 2024-11-06芜湖千名未实名手机用户单向停机10月10日起,芜湖部分未实名手机用户被单向停机记者从芜湖三大运营商获得的数据显示,目前芜湖至少有11.5万个固话、手机用户没有实名,这部分用户10月份将被单向停机,11月份将被双向停机今年7月份,根。
- 年羹尧的两个蒙古小妾最后结局 年羹尧的亲妹妹
- 2024-11-06年羹尧的两个蒙古小妾最后结局 年羹尧的亲妹妹今天,我们来说说清朝首位汉军下五旗出身的贵妃,皇贵妃这是一个人生充满了悲剧色彩的女人,如果,她出身于普通人家里,或许,她还能举杯叹饮,遨游心神,探究内心深处,诉说自己的凄惨经历但是,这些都注定只能是如。
- 小米11降价八百元(分期免息每月只要195元)
- 2024-11-06分期免息每月只要195元作为高通骁龙888芯片的首发机型,小米11自从后,至今都非常难抢,而且在上市时仅仅10天就卖出了50万台,21天销量突破100万台,在最近一段时间才逐渐的在电商平台能够看到现货不过目前,这款畅销机型正。
- 弹力的作用点在什么物体上
- 2024-11-06弹力的作用点在什么物体上弹力的作用点在使弹性物体变形的施力物体上因为弹力是施力物体使弹性物体变形后而产生的,而弹性物体在变形同时会产生一个恢复原状的力,这个人就是弹力,是时施力物体产生的力,所以作用点在施力物体上如用手压弹簧。
- 倚天屠龙记周芷若好还是赵敏好(新版倚天屠龙记上线)
- 2024-11-06新版倚天屠龙记上线新版《倚天屠龙记》已经上线一段时间,虽然从李连杰到苏有朋再到邓超,翻拍了一版又一版,但曾舜晞的新版一上线,还是引来万千关注只不过关注度和口碑没成正比,目前豆瓣评分跌到5.0,短评里更是一水儿的吐槽豆瓣。