论文精读-Reward is enough

2 篇文章 0 订阅
订阅专栏

1.文章信息

Reward is enough》 这是Deepmind发表在计算机期刊《Artificial Intelligence》上的一篇文章。

  期刊信息:

2.摘要

这篇文章,作者假设智力及其相关能力能够被认为是为了奖励的最大化。因此,奖励足够驱动表现出自然和人工智能所研究的能力的行为,包括知识,学习,感知,社会智能,语言,概况,和模仿。这与基于其他信号或目标的每种能力都需要专门的问题表述的观点形成鲜明的对比。此外,作者建议通过试错经验来最大化奖励的智能体能够学习到表现出绝大多数甚至所有的这些能力的行为。因此强大的强化学习智能体可以后成人工通用智能体的解决方案。

3、动机

  1. 奖励最大化作为通用目标足以驱动表现出自然和人工智能中所研究的大多数(如果不是全部)能力的行为。
  2. 不同形式的智力可能来自不同环境的奖励信号的最大化。人工智能体可能被要求在未来的环境中最大化各种奖励信号,从而产生新形式的智能。
  3. 即使是一个单一的动物或人类的智力与大量的能力有关。这种奖励最大化的行为与经常与追求每种相关的单独目标所产生的具体行为相一致。
  4. 为什么这种单一的最大化奖励的能力会产生?为一个单一的目标服务而实施能力,而不是为他们自己的专门目标服务

4、模型

1. 知识和学习

该研究将知识定义为智能体内部信息,如智能体包括用于选择动作、预测累计奖励或预测未来观测特征的函数的参数中。一些知识为先验知识,一些为通过学习获得知识。奖励最大化的智能体所在的环境包括先验知识,但先验知识在理论上和实践上有限,所以也包括学习的知识。在更丰富和寿命更长的环境下,智能体对知识的平衡越来越倾向于学习知识。

2.感知

人们需要各种感知能力来积累奖励,如图像分割避免掉下悬崖,物体识别区分是否有毒,脸部识别友方敌方等。包括视觉,听觉,躯体感觉和本体感觉。目前将该问题统一为通过监督学习问题。从奖励最大化而不是监督学习的角度来考虑感知,最终可能会支持更多的感知行为,包括具有挑战性和现实形式的感知能力:

行动和观察:通常交织在多种的感知形式中,如触觉感知,视觉移位等

感知:感知的效用通常取决于智能体的行为

信息:获取信息需要的隐式或者显式成本

数据:数据的分布与环境相关

应用:许多感知的应用并不能获得标记的数据

3. 社会智能

社会智能是一种能够理解其他智能体以及能够与其有效互动的能力。这种理论通常能被博弈论等正式化,作为多智能体博弈的均衡解。在该研究的最大化奖励值假设中,社会智能被理解为 在其他智能体的环境下,从某一个智能体的角度,最大化积累的奖励。按照这种标准的智能体-环境的协议,一个智能体可以观测到其他智能体的行为,和能够通过动作影响其他智能体。一个智能体能够影响其他智能体的行为通常能够获得最大的积累奖励。因此,如果一个环境需要社会智能(例如,因为它包含动物或人类),奖励最大化将产生社会智能。事实上,奖励最大化可能会产生比均衡更好的解决方案。这是因为它可以利用其他代理人的次优行为,而不是假设最佳或最坏情况下的行为。此外,奖励最大化有一个唯一的最优值,而在一般和博弈中,均衡值是不唯一的。

4. 语言

语言一直是自然智能和人工智能的一个重要研究课题。由于语言在人类文化和互动中起着主导作用,智能本身的定义往往是以理解和使用语言的能力为前提的,特别是自然语言。

然而,语言建模本身可能不能产生与智能相关的更广泛的语言能力,包括以下内容:

  1. 语言与其他动作和观测值的模型交织在一起。
  2. 语言是有结果的和有目的的
  3. 语言的效用是根据智能体的情况和行为而变化
  4. 语言处理复杂环境下意外事件的潜在用途可能超过任何语料库的能力                                

根据奖励最大化的假设,语言能力的全部丰富性,包括所有这些更广泛的能力,产生于对奖励的追求。这个过程是一个智能体根据复杂的观察序列(如接收句子)产生复杂的行动序列(如说出句子),以影响环境中的其他智能体(参照上文对社会智能的讨论)并积累更大的奖励的能力。

5. 泛化

泛化能力通常被定义成将一个问题的解决方案转移到另一个解决方案的能力。在该研究的最大化奖励假设中,泛化能力被理解为:在一个智能体和单一复杂的环境之间的重复互动中最大化积累奖励。丰富的环境要求智能体有能够泛化获取状态到未来状态的能力。

6. 模仿

模仿是人类与动物智能相关的重要能力,能促进其他能力的快速获得。在人工智能中,模仿通常被表述为通过行为克隆从演示中学习的问题,其目标是在提供有关教师的行动、观察和奖励的明确数据时,再现教师所选择的行动。与通过行为克隆的直接模仿相比,在复杂环境中可能需要更广泛和现实的观察学习能力,包括:

  1. 其他智能体可能是当前智能体环境的一部分,而无需假设存在包含教师数据的特殊数据集;
  2. 智能体学习自己的状态和其他智能体的状态之间的关联;或者自己的动作和其他智能体的观测值之间的关联;或者更高层次上抽象层次上的
  3. 其他智能体可能被部分观测,因此他们的动作和目标可能被不完全地及时的推断出;
  4. 其他智能体可能展现出来的应该避免的不良行为
  5. 环境中可能有许多其他智能体,表现出不同的技能或不同的能力水平
  6. 观察性学习甚至可能在没有任何明确智能体的情况下发生

该研究推测,更广泛的观察学习能力是由最大化奖励推动的。从单个智能体来看,只能观测到其他智能体作为环境的组成部分,可能会产生很多与行为克隆相似的优点.

7.通用智能

人类,也许还有其他动物所拥有的那种通用智能,可以被定义为在不同环境下灵活地实现各种目标的能力。通用智能有时会被一套环境正式化,这套环境可以衡量智能体在各种不同目标和背景下的能力。根据该研究的最大化奖励假设,通用智能被理解为在一个单一的复杂的环境下最大化一个单一的奖励来实现。动物的经验流足够丰富多样,它可能需要灵活的能力来实现各样的子目标(例如觅食、战斗、逃跑等),以便成功地最大化其整体奖励(例如饥饿或繁殖)。类似地,如果人工智能体的经验流足够丰富,那么单一目标(例如电池寿命或生存)可能隐含地需要实现同样广泛的子目标的能力,因此奖励最大化应该足以产生一种通用人工智能。

   强化学习智能体

该研究的主要假设,及智力及其相关能力可被理解为服务于奖励的最大化,对智能体的性质是不可知的。如何构建一个智能体能最大化奖励是一个重要的问题。通过构建强化学习智能体来最大化奖励。强化学习的智能体能够在学习的过程中获得表现出感知、语言、社会智能等行为,以便能够在一个环境中能最大化奖励。在这个环境中,这些能力具有持续的价值。

5.讨论

1. 哪种环境?

       人们可能会问,通过奖励最大化,哪个环境会产生 "最聪明的 "行为或 "最好的 "具体能力(例如自然语言)。智能体在遇到具体的环境经验能塑造其随后的能力。如 在人一生中遇到的朋友、敌人、老师、玩具、工具、或图书馆。

2. 哪种奖励信号?

       操控奖励信号的原因是:只有精心构建的奖励才能产生通用的智能。该研究认为,奖励的信号是十分稳健的。这是因为环境十分复杂,以至于即使是一个看似无害的奖励信号也可能要求智力及其相关能力。如捡鹅卵石,每收集到一个奖励+1,为了有效地最大化这个奖励信号,智能体可能需要对卵石进行分类,操纵卵石,导航到卵石滩,储存卵石,了解海浪和潮汐及其对卵石分布的影响,说服人们帮助收集卵石,使用工具和车辆来收集更多的卵石,采掘和塑造新的卵石,发现和建立收集卵石的新技术,或者建立一个收集卵石的公司。

3. 除了最大化奖励,还有什么能满足智能的要求?

在强化学习中,智能体的动作被优化以最大化奖励,这些动作反过来决定了从环境中收到的观察结果,而这些观察结果本身又为优化过程提供了信息;此外,优化是实时在线进行的,同时环境也在不断变化。

4. 什么是奖励最大化问题?

与其说是最大化一个由累积奖励定义的通用目标,不如说是为不同情况分别制定目标:例如多目标学习、风险敏感目标或由人在回路中指定的目标。

此外,与其说是解决一般环境下的奖励最大化问题,不如说是针对某一类特定的环境,如线性环境、确定性环境或稳定环境来研究特例问题。虽然这可能适合于特定的应用,但一个专门问题的解决方案通常并不具有普遍性;相反,对一般问题的解决方案也会为任何特殊情况提供解决方案。

强化学习问题也可以转化为一个概率框架,接近奖励最大化的目标[66,39,26,17]。最后,通用决策框架[21]为所有环境中的智能提供了一个理论上但不可计算的模拟;而强化学习问题则为特定环境中的智能提供了一个实际的表述。

5. 从足够大的数据集中进行离线学习,是否就能实现智能?

在复杂的环境下,离线学习不能很好的实现智能。离线学习可能只能够解决那些已经在很大程度上在可用数据中得到解决的问题。此外,解决智能体当前问题所需的数据在离线数据中出现的概率往往可以忽略不计。在线互动允许智能体专门处理它当前面临的问题,不断验证和纠正其知识中最紧迫的漏洞,并找到与数据集中的行为截然不同并取得更大奖励的新行为。

6.奖励信号是否过于贫乏?

一个有效的智能体可以利用额外的经验信号来促进未来奖励的最大化。现在的研究者更倾向引入假设或开发更简单的抽象,然而这些假设回避了一些关键性的问题,目前该组织正在努力研究。

6、创新点

提出了一种假设,一个能够有效学习一种方式实现最大化奖励的智能体,当在一个更丰富的环境中会产生一种富有经验的通用智能的表达。通过从知识、学习、感知、社会智能、语言、概括、模仿和一般智能介绍,并发现奖励最大化可以为理解每种能力提供基础。最后,提出了一个猜想,即智力可以在实践中从足够强大的强化学习智能体中出现,这些之恩那个提可以学习最大化未来的奖励。如果这个猜想是真的,它为理解和构建人工通用智能提供了一条直接的途径。

7、个人总结

感觉本篇论文主要为科普性论文,从人文的角度出发分析为什么要最大化奖励。对于从事其他算法想利用强化学习算法解决的,可以看看。一直研究强化学习算法的,没有很大的必要研读

以上仅是自己的看法

【Reward is enough】Sutton、DavidSilver师徒联手:奖励机制足够实现各种目标。
深度强化学习实验室:一个“开源开放、共享共进”的强化学习学术组织。
06-11 1325
深度强化学习实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/作者:小舟、陈萍文章来源:转载自机器之心(链...
《Reward is enough》 论文阅读
Talk Is Cheap
09-26 334
摘要 本文提出假说,Reward is enough for AGI 引言 举了松鼠找松子吃的例子,确实,最终吃了松子reward就为1,没吃到松子reward就为0 背景知识:强化学习 把世界和生活的所有事reward化: 讨论 尝试用强化学习解释世界的一切robot 结论 如果Reward-is-enough这个猜想是正确的, 就能实现AGI。 ...
对话系统论文集(15)-reward讨论
fangting的博客
03-10 368
Reward estimation for dialogue policy optimisation 问题: 用RL来学习任务对话的指标主要是通过reward(快速,完成率)。 现实中,完成率只有用户知道。agent可以问完成率但是麻烦而且用户回答太多样。 背景: 上世纪。PARADISE framework中,使用成功率和对话中的其他特征来推断出用户的满意率。然后用满意率作为reward。但是...
如何看待 DeepMind 论文宣称构建通用人工智能的所有技术已经具备?
weixin_40920183的博客
06-15 478
来源:知乎回答整理自知乎,著作权归属原作者,侵删。匿名用户回答:比这篇文章的内容更令人绝望的是这篇文章的作者。一作是david silver,通讯是richard sutton,对RL有点...
《强化学习周刊》第11期:强化学习应用之模拟到真实
BAAIBeijing的博客
06-29 782
No.11智源社区强化学习组强化学习研究观点资源活动关于周刊强化学习作为人工智能领域研究热点之一,它在模拟到真实领域中的应用研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域...
论文笔记】AAAI2022论文精读-AlphaHoldem
Xixoqw的博客
03-23 3978
修改自我组会报告,具体细节请读原文。 文章目录引子背景介绍德州扑克规则论文贡献信息编码方式网络结构自博弈算法性能比较 引子 论文标题是:AlphaHoldem: High-Performance Artificial Intelligence for Heads-Up No-Limit Texas Hold’em from End-to-End Reinforcement Learning 在写这篇文章的时候,论文还没有正式发布,我这里读的是预发布版本。我邮件联系了论文作者之一的兴军亮老师,他的回复是:
强化学习-reward-shaping-好奇心驱动-调研
hehedadaq的博客
04-03 1576
强化学习-reward-shaping-好奇心驱动-调研 文章目录强化学习-reward-shaping-好奇心驱动-调研前言:快速阅览:一、Curiosity-driven Exploration by Self-supervised Prediction二、random network distillation三、[好奇心驱动的强化学习:从信息论开始](https://zhuanlan.zhihu.com/p/33588912)四、Episodic Curiosity Through Reachabil
论文复现-多目标强化学习-envelope MOQ-learning
weixin_47895059的博客
10-18 4182
这一部分就很明了了,计算前面提到的几种loss,给与不同权重后反向传播,唯一特别注意的是,actor loss中使用的优势adv,不知出于什么理由,使用了优势向量与偏好向量做内积后的偏好,(可能是因为解唯一,优化方便)虽然论文中用的是Q-learning的架构,但是在提供的代码中,采用的是A3C的架构,使用envelope 网络作为价值网络,估计状态价值用于更新,所以接下来以代码为准,结合论文思想,展示用到的输入、输出和损失函数。w的值均为正数,且和为1,每一位的值,代表对该维目标的偏好大小。
论文阅读--Reinforced Cross-Modal Matching and Self-Supervised Imatation Learning for VLN Navigation
LuffysMan的博客
03-29 1492
写在前面  这篇关于VLN的论文在2019年CVPR评审过程中得分很高, 用到了强化学习. luffy对强化学习比较感兴趣并想进一步深入学习和研究, 就对这篇论文进行了粗浅的阅读(水平有限, 暂时无法深入理解). 主要对摘要和介绍进行了翻译. Abstract  Vision-language navigation (VLN) is the task of navigating an embod...
论文-Reward or Penalty - Aligning Incentives of Stakeholders in Crowdsourcing
12-04
众包平台的三个参与者即任务发布者、工人和平台之间存在一定的利益冲突,因而会对众包任务的完成质量、花费、时延和平台发展产生不利影响。 从整个众包社区的长期良性发展的角度入手,设计了一种机制以统一三者的...
Shop-Reward.de——超市夜未眠「Shop-Reward.de - Cashback」-crx插件
03-10
Die Shop-Reward.de Cashback现金返还互联网。 Die Shop-Reward Erweiterung mach dich beim Surfen auf ein Cashback aufmerksam。 因此,现金返还是杜妮·维德·韦恩。 商店奖励诗人Cashback vonüber800 Partnern...
hive-reward-manager:轻松申领和管理您的蜂巢奖励
05-08
Steem奖励经理或SRM的简称 Srm是一种自动赎回您的Steem奖励的工具,如果其中包含sbd,请前往内部市场以当前市场价格购买Steem奖励。 它将每分钟检查是否有待处理的奖励。 要使用它,请更新文件“ config.example.js...
ff-reward-garena.github.io
04-04
【标题】"ff-reward-garena.github.io" 是一个基于GitHub Pages托管的项目,很可能是一个游戏相关的奖励系统或者社区平台的前端网站。由于标题直接采用了项目仓库的名称,我们可以推测这是一个公开源代码的项目,...
Playing-reward:超好看的打赏功能~ 演示地址
05-18
Playing-reward 一个打赏的小功能 修改自 博客版本请查看 hexo 分支 直接 Fork 修改 html 内链接地址 更换图片为你自己的打赏图片 使用 iframe 嵌入页面的代码,高度至少 240px,宽度至少 310px! <iframe src=...
最新全流程Python编程、机器学习与深度学习实践技术应用
weixin_48230888的博客
10-15 655
在理解和掌握深度学习的基础知识,深入了解其与经典机器学习算法的区别与联系,并系统学习包括迁移学习、循环神经网络(RNN)、长短时记忆网络(LSTM)、时间卷积网络(TCN)、生成对抗网络(GAN)、YOLO目标检测算法、自编码器等前沿技术的原理及其PyTorch编程实现。1、统计数据的描述与可视化(数据的描述性统计:均值、中位数、众数、方差、标准差、极差、四分位数间距等;4、张量(Tensor)的运算(加法、减法、矩阵乘法、哈达玛积(element wise)、除法、幂、开方、指数与对数、近似、裁剪)
西瓜书机器学习第三章——线性模型
OK
10-13 193
logistic regression/logit regression 对数几率回归。multivariate linear regression 多元线性回归。within-class scatter matrix 类内散度矩阵。between-class scatter matrx 类间散度矩阵。maximum likelihood method 极大似然法。cost-sensitive learning 代价敏感学习。log-inear regression 对数线性回归。
机器学习——图神经网络
2301_80374809的博客
10-19 1605
在讨论 GNN 之前,我们首先要了解什么是图(Graph)。图是一种数据结构,用来表示实体(节点)以及它们之间的关系(边)。形式上,图可以定义为GVEG = (V, E)GVE,其中VVV是节点的集合,EEE是边的集合。社交网络:用户是节点,好友关系是边。分子结构:原子是节点,化学键是边。推荐系统:用户和商品都是节点,购买行为或评分是边。
机器学习1
最新发布
aketoshknight的博客
10-22 541
机器学习中,特征是描述样本属性的指标,而特征空间是由这些特征构成的多维空间。模型通过在特征空间中寻找与训练数据匹配的假设,来预测新样本的结果。假设空间包含了所有可能的假设,模型在其中寻找最优的假设来解释数据。经过训练数据的。
诺贝尔物理学奖:机器学习与神经网络的时代
Xinnnnn的博客
10-16 532
2024年诺贝尔物理学奖的颁发,无疑是对机器学习与神经网络研究者努力的认可。这不仅是一个奖项,更是新的科研方向的起点。随着科技不断进步,我们将继续深入探讨机器学习在各个领域的潜力与挑战,期待它为人类社会带来更大的变革与进步。在这个充满可能性的时代,科学探索的旅程才刚刚开始。
reward1 = [1,1,3,4]reward2 = [4,4,1,1]k = 2profit = {i: reward1[i] - reward2[i] for i in range(len(reward1))}print(profit)
06-08
这段代码的作用是给定两个长度为n的列表reward1和reward2,定义一个字典profit,其中键为0到n-1的整数,值为reward1[i] - reward2[i]。最后输出profit字典。 具体来说,这段代码会输出如下结果: ``` {0: -3, 1: -3, 2: 2, 3: 3} ``` 其中,profit的键值对表示: - 键为0,值为reward1[0] - reward2[0],即1-4=-3; - 键为1,值为reward1[1] - reward2[1],即1-4=-3; - 键为2,值为reward1[2] - reward2[2],即3-1=2; - 键为3,值为reward1[3] - reward2[3],即4-1=3。 最后输出的profit字典包含了这些键值对。
写文章

热门文章

  • Ubuntu开机后卡在登陆界面进去不 13797
  • 分割一个整数的各个数字 3619
  • Python 画图 Brokenaxes x坐标轴间隔设置 3342
  • Mac与windows系统互联传输文件 2667
  • Texstudio 显示中文 (Mac) 2361

分类专栏

  • 论文工具 10篇
  • 工具 5篇
  • mac 6篇
  • 代码 11篇
  • Ubuntu 3篇
  • 论文精读 2篇
  • 学术申请 1篇

最新评论

  • Ubuntu开机后卡在登陆界面进去不

    特权老师: 好用,以前不知道,重装了系统,可惜了,重新配置环境太麻烦了。不知大佬这个办法的原理是什么?

  • Ubuntu开机后卡在登陆界面进去不

    皓:): 重启完成之后,进入救援模式还是没有那个数字

  • Python 画图 Brokenaxes x坐标轴间隔设置

    __momo__: 终于解决问题了!感谢!表情包

  • Ubuntu开机后卡在登陆界面进去不

    Ethan Wilson: 管用

最新文章

  • IEEE-TMC 论文模版
  • MAC 版PowerPoint 插入latex数学公式
  • MAC 版PowerPoint 插入latex数学公式
2024年1篇
2023年15篇
2022年7篇
2021年7篇
2020年7篇
2019年1篇
2017年1篇

目录

目录

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

玻璃钢生产厂家安庆商场新春美陈江西玻璃钢广场雕塑定制济南红色革命主题玻璃钢雕塑来宾玻璃钢雕塑工作室黄石市玻璃钢雕塑定制玻璃钢雕塑样本山东城市标志玻璃钢雕塑日照玻璃钢雕塑哪里有运城校园玻璃钢景观雕塑价格西安玻璃钢钢雕塑招远玻璃钢人物雕塑优惠的玻璃钢雪山雕塑建湖玻璃钢雕塑加工厂家五华区玻璃钢雕塑造型厂家多少钱不锈钢雕塑和玻璃钢雕塑哪个贵玻璃钢鹿雕塑收费商场春季气球美陈布置沧州玻璃钢花盆花器无锡孝感玻璃钢卡通雕塑广场玻璃钢雕塑哪家实力强丽水玻璃钢仿铜雕塑厂家潮州美陈玻璃钢动物雕塑玻璃钢动漫卡通雕塑设计商场中庭美陈方案北京周年庆典商场美陈批发价德阳玻璃钢仿铜雕塑厂深圳主题商场美陈费用玻璃钢雕塑卡通哪家便宜江西步行街玻璃钢雕塑设计商场季节性美陈的企划方案香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化