人工智能deeplearning(所有任务超越人类)
人工智能deeplearning(所有任务超越人类)
2024-06-28 11:18:39  作者:偏爱的情歌  网址:https://m.xinb2b.cn/know/teo382992.html
多任务学习使得单个智能体可以学习解决许多不同的问题,是人工智能研究中的长期目标。最近,该领域取得了许多重大进展,DQN 等智能体可以使用相同的算法玩不同的游戏,包括「Breakout」和「Pong」游戏。这些算法用于训练单个专家智能体完成每项任务。随着人工智能研究深入到更多复杂的现实世界领域,构建单个通用智能体(与多专家智能体相反)来学习完成多个任务将变得至关重要。然而,截至目前,这一任务依然是一个重大挑战。

选自DeepMind,作者:Matteo Hessel等,机器之心编译,参与:刘晓坤、张倩。

难点之一在于,强化学习智能体用来判断成功的奖励等级往往有所不同,导致他们将注意力集中在奖励更高的任务上。例如,在 Atari 游戏乒乓球(Pong)中,智能体每一步接收的奖励可能是-1、0 或 1,但玩吃豆人(Ms. Pac-Man)游戏的智能体可以在单个步骤中获得数百或数千分。即使个体奖励的大小可以比较,但随着智能体不断进化,奖励的频率可能会随着时间发生变化。这意味着智能体更倾向于得分高的任务,导致其在某些任务上的表现越来越好,但在其他任务中却越来越差。

为了解决此类问题,DeepMind 开发了 PopArt,这一技术可以调整每个游戏中分值的大小,使得智能体认为每个游戏都有同等的学习价值,无论每个特定游戏中可以得到的奖励有多大。开发人员将 PopArt 归一化应用到一个拥有当前最佳性能的强化学习智能体中,得到一个可以玩 57 种 Atari 电子游戏的单个智能体,该智能体在所有游戏中的表现超过人类中等水平。

从广义上来说,深度学习依赖于神经网络权重更新,其输出不断逼近理想目标输出。神经网络用于深度强化学习中时也是如此。PopArt 通过估计这些目标的平均值和分布来工作(例如游戏中的分数)。在被用于更新网络权重前,PopArt 利用这些统计数据归一化目标。利用归一化的目标使得学习更加稳定,并且对规模和变化更加鲁棒。为了得到准确的估计(如预期未来分数),网络的输出可以通过反转归一化过程缩放到真实目标范围。如果结果理想,数据的每次更新都将改变所有未归一化的输出,包括那些已经很好的输出。开发人员通过反向更新网络来避免这类情况的发生,只要更新统计数据,这种做法就可以进行。这意味着我们既可以获得大规模更新的好处,又能保持以前学习到的输出不变。正是出于这些原因,该方法被命名为 PopArt:它在运行中既能精确地保持输出,又能自适应地重新缩放目标。

PopArt 作为修剪奖励的替代方案

传统上,研究者通过在强化学习算法中使用奖励修剪来克服变化奖励范围的问题。这种修剪方法将大的奖励和小的奖励分别转换为 1 和-1,粗略地归一化期望奖励。尽管这使得学习过程变得更加容易,它也改变了智能体的目标。例如,在吃豆人(Ms. Pac-Man)游戏中,智能体的目标是收集小球,收集一颗奖励 10 分,而吃掉幽灵则奖励 200 到 1600 分,如果使用奖励修剪,则在吃掉小球和吃掉幽灵之间将不会有明显的区别,导致智能体最终只吃小球,不会再想办法捕捉幽灵,如下所示:

当移除奖励修剪方案,并使用 PopArt 的适应性归一化来稳定学习过程时,它出现了非常不同的行为,智能体开始主动捕捉幽灵,并得到更高的分数,如下所示:

利用 PopArt 进行多任务深度强化学习

DeepMind 将 PopArt 应用到重要性加权 Actor-Learner 架构(IMPALA)上,这是 DeepMind 最流行的深度强化学习智能体之一。在实验中,与没有使用 PopArt 的基线智能体相比,PopArt 显著提升了智能体的性能。在结合修剪奖励和未修剪奖励的条件下,PopArt 智能体在游戏中的中位数分数超越了人类玩家的中位数分数。这远远高于结合修剪奖励的基线智能体,而未结合修剪奖励的基线智能体完全无法达到有意义的性能,因为它无法有效地处理游戏中奖励规模的大范围变化。

人工智能deeplearning(所有任务超越人类)(1)

57 个 Atari 游戏上的中位数标准化性能。每一条线对应单个智能体使用同一个神经网络在所有游戏中得到的中位数性能。实线代表使用了奖励修剪的智能体。虚线代表未使用奖励修剪的智能体。

这是首次使用单个智能体在这种多任务环境中实现超越人类的表现,表明 PopArt 可以为这样的开放性研究问题提供线索,即如何在没有手动修剪或缩放奖励的情况下平衡不同的目标函数。PopArt 实现在学习的同时自动适应归一化的能力在应用 AI 到更加复杂的多模态领域时可能是很重要的,其中智能体必须学会权衡多个不同的具备变化奖励的目标函数。

论文:Multi-task Deep Reinforcement Learning with PopArt

人工智能deeplearning(所有任务超越人类)(2)

论文链接:https://arxiv.org/abs/1809.04474

摘要:强化学习社区在设计能够在特定任务上超越人类表现的算法方面取得了很大进展。这些算法大多用于训练单项任务,每项新任务都需要训练一个全新的智能体。这意味着学习算法是通用的,但每个解决方案并不通用;每个智能体只能解决它所训练的一项任务。在这项工作中,我们研究了学习掌握多个而不是一个序列决策任务的问题。多任务学习中的一个普遍问题是,如何在竞争单个学习系统的有限资源的多个任务需求之间找到平衡。许多学习算法可能会被一系列任务中的某些待解决任务分散注意力。这样的任务对于学习过程似乎更为突出,例如由于任务内奖励的密度或大小的原因。这导致算法以牺牲通用性为代价关注那些更突出的任务。我们建议自动调整每个任务对智能体更新的贡献,以便所有任务对学习动态产生类似的影响。这让智能体在学习玩 57 种不同的 Atari 游戏时表现出了当前最佳性能。令人兴奋的是,我们的方法仅学会一个训练有素的策略(只有一套权重),却超过了人类的中等表现。据我们所知,这是单个智能体首次超越此多任务域的人类级别性能。同样的方法还在 3D 强化学习平台 DeepMind Lab 的 30 项任务中实现了当前最佳性能。

  • 夸赞一个人帅的搞笑句子(夸赞一个人帅怎么说)
  • 2024-06-29夸赞一个人帅怎么说我又对着镜子仔细照了照,对我这长相真正放心,实在挑不出一点毛病来有一天,我上街,突然一群人把我围住指着说我帅,我说我不帅,他们就打我,还说我虚伪少年坐在盛开的樱花树下,头发黑玉般有淡淡的光泽,脖颈处的。
  • 个税如何扣除个人养老金 个人养老金个税优惠来了
  • 2024-06-29个税如何扣除个人养老金 个人养老金个税优惠来了中新网9月29日电(首席财经记者李金磊)个人养老金税收优惠政策来了9月26日召开的国务院常务会议决定,对政策支持、商业化运营的个人养老金实行个人所得税优惠:对缴费者按每年12000元的限额予以税前扣除。
  • 水貂跟貂绒的区别(水貂绒和欧貂有什么区别)
  • 2024-06-29水貂绒和欧貂有什么区别貂绒,顾名思义,如“水貂”般毛绒丰厚、贴身保暖的毛衣面料,并非是毛皮动物水貂身上的绒毛它是一种新式面料,毛绒丰厚、色泽光润、手感顺利、轻柔健壮、贴身保暖水貂绒是什么材质水貂绒面料是一种绒面料,由貉子毛。
  • 福山风味咖啡(一杯咖啡引发了一场变革)
  • 2024-06-29一杯咖啡引发了一场变革齐鲁壹点记者闫丽君说起乡村旅游,你会想到什么?田园风光?农家乐?还是采摘耕种体验?在烟台市莱山区崖前村,却可以体验到小山村紧跟社会风尚不断推陈出新的一面,这个曾经不起眼的小山村,如今却因为一杯户粒咖啡。
  • 张无忌杨过郭靖哪个比较强(郭靖杨过张无忌)
  • 2024-06-29郭靖杨过张无忌金庸先生的射雕三部曲,历来被认为是其武侠著作当中成就最高的在这其中,郭靖、杨过和张无忌三名男主,更是家喻户晓而这三名男主的武功,应该如何排序呢?杨过,一直是最受女性武侠迷所喜爱的男主,他不仅风流倜傥、。
  • 八个月婴儿断夜奶(八个月大的宝宝已经把夜奶断了)
  • 2024-06-29八个月大的宝宝已经把夜奶断了导读:八个月大宝宝断了夜奶,但是每天都在喝旺仔牛奶,这样对宝宝好吗?让我们来看的,育婴师怎么说一、答案一定是否定的宝宝八个月还属于婴儿期,主要的食物还是牛奶,宝宝喂养一向秉承按需喂养,所以八个月的宝宝。
  • 柯南看美女被小兰抓住了(美女被柯南附身)
  • 2024-06-29美女被柯南附身都说女生的心思缜密你永远也猜不到她会想什么直到小编看到了这个跪服了这完全就是柯南附身了!!!女生是感觉动物,她们都很感性,跟着直觉和心走的想知道她们到底想什么,就要走进她们的心,多关心,接触,自然会了。
  • 今日开启暑期网络培训(网络专题培训班知识测试6月9日开始啦)
  • 2024-06-29网络专题培训班知识测试6月9日开始啦近日,市委组织部印发了《关于开展相关网络专题培训班知识测试的通知》,要求各县区委组织部和市直相关单位组织人事部门及时组织新型城镇化、乡村振兴、应急处突网络专题培训班学员参加网络专题培训班知识测试具体安。
  • 设计感比较好的男装品牌(江南布衣推出设计师男装品牌SAMO)
  • 2024-06-29江南布衣推出设计师男装品牌SAMO近日,JNBY母公司江南布衣集团发布公告称,将在中国推出一个新的男装设计师服饰品牌“SAMO”,推出新品牌是集团实行多品牌业务运营策略及向更加细分的男装市场横向扩展的重要举措,将为集团多元化品牌组合及。
  • 西径山公交车(径山公交出行最新攻略)
  • 2024-06-29径山公交出行最新攻略径山寺位于杭州余杭径山镇,是最近很红的网红打卡地一般自驾出行比较方便,杭州城西出发大约50分钟可以到达径山寺径山寺附近有两大停车点自驾你可以导航驾驶到“大径山旅游集散中心”,乘免费接驳车上径山或者驾车。
  • 最值得看的几部惊悚电影(一部鲜为人知的港式惊悚电影)
  • 2024-06-29一部鲜为人知的港式惊悚电影梁普智这个名字,对于如今的年轻观众来说恐怕非常陌生,但在上世纪七十年代到八十年代,他却执导过多部极具个人风格的电影,譬如1976年的《跳灰》,便被誉为香港电影新浪潮的先锋之作,其后的《狐蝠》、《神偷妙。
  • 豺怎么读(豺的读音是什么)
  • 2024-06-29豺的读音是什么豺字读音为:chái豺是一个汉字,本意是指野兽名,形似犬而残猛如狼,俗名豺狗,比喻贪婪残忍的人豺的学名是Cuonalpinus,哺乳动物,有11个亚种,大小似犬而小于狼,体长85-130厘米,尾长45。