我们考虑扩展的强化学习概念,其中环境可以模拟代理并将其输出基于代理的假设行为。由于良好的性能通常需要注意环境的输出所基于的任何东西,因此我们认为,对于代理在许多这样的延长环境中实现平均良好性能,因此代理必须自我反思。因此,通过将代理通过扩展环境的电池运行代理,可以通过运行代理来数值估计代理的自我反射能力。我们同时发布扩展环境的开源库,作为该技术的概念验证。由于图书馆是先进的,我们避免了优化它的难题。相反,我们选择了具有有趣属性的环境。有些似乎矛盾,有些导致有趣的思想实验,有些甚至暗示自我反思如何在自然中发展。我们举例说明并介绍一个简单的转型,实验似乎增加了自我反思。
translated by 谷歌翻译
如果我们改变规则,明智的交易与傻瓜会有什么?不同的小组以不同方式形式化强化学习(RL)。如果一个R1正式化的代理是在另一个RL正式化的环境中运行,则必须首先转换代理或映射。任何此类映射的充分性标准是它保留了相对智能。本文调查了这种充足率标准的配方和性质。然而,在制定问题之前,我们争论,比较情报问题。我们使用超滤器比较智力,通过观看代理作为智力选举中的候选人的激励,其中选民是环境的候选人。这些比较器是违反直觉的,但我们证明了关于RL智力测量的不可能性定理,这表明这种情况是不可避免的。鉴于RL框架之间的映射,我们建立了足够的条件,以确保对于目的地框架中的任何超过滤器的智能比较器,源框架中存在超滤网智能比较器,使得映射保留了相对智能。我们在各种RL框架之间考虑三个具体映射,并表明它们满足这些充足的条件,因此保持了适当测量的相对智能。
translated by 谷歌翻译
我们提出了五个基本的认知科学基本宗旨,我们在相关文献中认真地将其确定为该哲学的主要基本原则。然后,我们开发一个数学框架来讨论符合这些颁布宗旨的认知系统(人造和自然)。特别是我们注意,我们的数学建模并不将内容符号表示形式归因于代理商,并且代理商的大脑,身体和环境的建模方式使它们成为更大整体的不可分割的一部分。目的是为认知创造数学基础,该基础符合颁布主义。我们看到这样做的两个主要好处:(1)它使计算机科学家,AI研究人员,机器人主义者,认知科学家和心理学家更容易获得颁发的思想,并且(2)它为哲学家提供了一种可以使用的数学工具,可以使用它澄清他们的观念并帮助他们的辩论。我们的主要概念是一种感觉运动系统,这是过渡系统研究概念的特殊情况。我们还考虑了相关的概念,例如标记的过渡系统和确定性自动机。我们分析了一个名为“足够的概念”,并表明它是“从颁布主义的角度来看”中“认知数学数学”中基础概念的一个很好的候选者。我们通过证明对最小的完善(在某种意义上与生物体对环境的最佳调整相对应)的独特定理来证明其重要性,并证明充分性与已知的概念相对应,例如足够的历史信息空间。然后,我们开发其他相关概念,例如不足程度,普遍覆盖,等级制度,战略充足。最后,我们将其全部绑架到颁布的宗旨。
translated by 谷歌翻译
深度强化学习(RL)导致了许多最近和开创性的进步。但是,这些进步通常以培训的基础体系结构的规模增加以及用于训练它们的RL算法的复杂性提高,而均以增加规模的成本。这些增长反过来又使研究人员更难迅速原型新想法或复制已发表的RL算法。为了解决这些问题,这项工作描述了ACME,这是一个用于构建新型RL算法的框架,这些框架是专门设计的,用于启用使用简单的模块化组件构建的代理,这些组件可以在各种执行范围内使用。尽管ACME的主要目标是为算法开发提供一个框架,但第二个目标是提供重要或最先进算法的简单参考实现。这些实现既是对我们的设计决策的验证,也是对RL研究中可重复性的重要贡献。在这项工作中,我们描述了ACME内部做出的主要设计决策,并提供了有关如何使用其组件来实施各种算法的进一步详细信息。我们的实验为许多常见和最先进的算法提供了基准,并显示了如何为更大且更复杂的环境扩展这些算法。这突出了ACME的主要优点之一,即它可用于实现大型,分布式的RL算法,这些算法可以以较大的尺度运行,同时仍保持该实现的固有可读性。这项工作提出了第二篇文章的版本,恰好与模块化的增加相吻合,对离线,模仿和从演示算法学习以及作为ACME的一部分实现的各种新代理。
translated by 谷歌翻译
我们将减少创建AI的任务,以找到适当的语言来描述世界的任务。这不是编程语言,因为编程语言仅描述可计算的函数,而我们的语言将描述更广泛的函数类别。该语言的另一个特异性将是描述将包含单独的模块。这将使我们能够自动寻找世界的描述,以便我们在模块后发现它。我们创建这种新语言的方法将是从一个特定的世界开始,并写出特定世界的描述。关键是,可以描述这个特定世界的语言将适合描述任何世界。
translated by 谷歌翻译
关于人类是否有自由的辩论是几个世纪以来的争夺。虽然有良好的论据,基于我们目前对大自然法律的理解,虽然人类不可能自由的意志,但大多数人都相信他们。这种差异乞求解释。如果我们接受我们没有自由的意志,我们面临着两个问题:(1)虽然自由是一个非常常用的概念,每个人都直觉理解,我们实际提到的是,当我们说行动或选择时,我们实际上是什么?免费“或不是?而且,(2)为什么自由的信念会如此共同?这种信念来自哪里,它的目的是什么?在本文中,我们从加强学习(RL)的角度来看这些问题。 RL是最初为培训人工智能代理制定的框架。然而,它也可以用作人为决策和学习的计算模型,并通过这样做,我们建议通过观察人们的常识理解自由来回回答第一问题与信息熵密切相关RL代理的归一化行动值,而第二个可以通过代理人来制定本身的必要性,就像他们在处理时间信用分配问题时所做的那样做出决定。简而言之,我们建议通过将RL框架应用为人类学习的模型,这变得明显,为了让我们有效地学习并聪明,我们需要将自己视为自由意志。
translated by 谷歌翻译
使用规划算法和神经网络模型的基于模型的强化学习范例最近在不同的应用中实现了前所未有的结果,导致现在被称为深度增强学习的内容。这些代理非常复杂,涉及多个组件,可能会为研究产生挑战的因素。在这项工作中,我们提出了一个适用于这些类型代理的新模块化软件架构,以及一组建筑块,可以轻松重复使用和组装,以构建基于模型的增强学习代理。这些构建块包括规划算法,策略和丢失功能。我们通过将多个这些构建块组合实现和测试经过针对三种不同的测试环境的代理来说明这种架构的使用:Cartpole,Minigrid和Tictactoe。在我们的实施中提供的一个特定的规划算法,并且以前没有用于加强学习,我们称之为Imperage Minimax,在三个测试环境中取得了良好的效果。用这种架构进行的实验表明,规划算法,政策和损失函数的最佳组合依赖性严重问题。该结果提供了证据表明,拟议的架构是模块化和可重复使用的,对想要研究新环境和技术的强化学习研究人员有用。
translated by 谷歌翻译
Adequately assigning credit to actions for future outcomes based on their contributions is a long-standing open challenge in Reinforcement Learning. The assumptions of the most commonly used credit assignment method are disadvantageous in tasks where the effects of decisions are not immediately evident. Furthermore, this method can only evaluate actions that have been selected by the agent, making it highly inefficient. Still, no alternative methods have been widely adopted in the field. Hindsight Credit Assignment is a promising, but still unexplored candidate, which aims to solve the problems of both long-term and counterfactual credit assignment. In this thesis, we empirically investigate Hindsight Credit Assignment to identify its main benefits, and key points to improve. Then, we apply it to factored state representations, and in particular to state representations based on the causal structure of the environment. In this setting, we propose a variant of Hindsight Credit Assignment that effectively exploits a given causal structure. We show that our modification greatly decreases the workload of Hindsight Credit Assignment, making it more efficient and enabling it to outperform the baseline credit assignment method on various tasks. This opens the way to other methods based on given or learned causal structures.
translated by 谷歌翻译
General mathematical reasoning is computationally undecidable, but humans routinely solve new problems. Moreover, discoveries developed over centuries are taught to subsequent generations quickly. What structure enables this, and how might that inform automated mathematical reasoning? We posit that central to both puzzles is the structure of procedural abstractions underlying mathematics. We explore this idea in a case study on 5 sections of beginning algebra on the Khan Academy platform. To define a computational foundation, we introduce Peano, a theorem-proving environment where the set of valid actions at any point is finite. We use Peano to formalize introductory algebra problems and axioms, obtaining well-defined search problems. We observe existing reinforcement learning methods for symbolic reasoning to be insufficient to solve harder problems. Adding the ability to induce reusable abstractions ("tactics") from its own solutions allows an agent to make steady progress, solving all problems. Furthermore, these abstractions induce an order to the problems, seen at random during training. The recovered order has significant agreement with the expert-designed Khan Academy curriculum, and second-generation agents trained on the recovered curriculum learn significantly faster. These results illustrate the synergistic role of abstractions and curricula in the cultural transmission of mathematics.
translated by 谷歌翻译
随着AI的进展继续前进,重要的是要知道高级系统将如何做出选择以及以什么方式失败。机器已经可以在某些领域中超越人类,并了解如何安全地构建可能在人类层面上具有或高于人类水平的能力的人特别关注。人们可能会怀疑,人为智能(AGI)和人为的超智能(ASI)系统应被建模为人类无法可靠地超越人类的东西。作为对这一假设的挑战,本文提出了阿喀琉斯高跟假说,该假设指出,即使是潜在的超级智能系统,也可能具有稳定的决策理论妄想,这会导致他们在对抗环境中做出明显的非理性决策。在对决策理论文献中相关困境和悖论的调查中,以此假设的背景讨论了许多潜在的致命弱点。为了理解这些弱点可能被植入系统的方式,做出了一些新颖的贡献。
translated by 谷歌翻译
在过去的十年中,多智能经纪人强化学习(Marl)已经有了重大进展,但仍存在许多挑战,例如高样本复杂性和慢趋同稳定的政策,在广泛的部署之前需要克服,这是可能的。然而,在实践中,许多现实世界的环境已经部署了用于生成策略的次优或启发式方法。一个有趣的问题是如何最好地使用这些方法作为顾问,以帮助改善多代理领域的加强学习。在本文中,我们提供了一个原则的框架,用于将动作建议纳入多代理设置中的在线次优顾问。我们描述了在非传记通用随机游戏环境中提供多种智能强化代理(海军上将)的问题,并提出了两种新的基于Q学习的算法:海军上将决策(海军DM)和海军上将 - 顾问评估(Admiral-AE) ,这使我们能够通过适当地纳入顾问(Admiral-DM)的建议来改善学习,并评估顾问(Admiral-AE)的有效性。我们从理论上分析了算法,并在一般加上随机游戏中提供了关于他们学习的定点保证。此外,广泛的实验说明了这些算法:可以在各种环境中使用,具有对其他相关基线的有利相比的性能,可以扩展到大状态行动空间,并且对来自顾问的不良建议具有稳健性。
translated by 谷歌翻译
我们分析了学习型号(如神经网络)本身是优化器时发生的学习优化的类型 - 我们将作为MESA优化的情况,我们在本文中介绍的新闻。我们认为,MESA优化的可能性为先进机器学习系统的安全和透明度提出了两个重要问题。首先,在什么情况下学习模型是优化的,包括当他们不应该?其次,当学习模型是优化器时,它的目标是什么 - 它将如何与损失函数不同,它训练的损失 - 并且如何对齐?在本文中,我们对这两个主要问题进行了深入的分析,并提供了未来研究的主题概述。
translated by 谷歌翻译
Alphazero,Leela Chess Zero和Stockfish Nnue革新了计算机国际象棋。本书对此类引擎的技术内部工作进行了完整的介绍。该书分为四个主要章节 - 不包括第1章(简介)和第6章(结论):第2章引入神经网络,涵盖了所有用于构建深层网络的基本构建块,例如Alphazero使用的网络。内容包括感知器,后传播和梯度下降,分类,回归,多层感知器,矢量化技术,卷积网络,挤压网络,挤压和激发网络,完全连接的网络,批处理归一化和横向归一化和跨性线性单位,残留层,剩余层,过度效果和底漆。第3章介绍了用于国际象棋发动机以及Alphazero使用的经典搜索技术。内容包括minimax,alpha-beta搜索和蒙特卡洛树搜索。第4章展示了现代国际象棋发动机的设计。除了开创性的Alphago,Alphago Zero和Alphazero我们涵盖Leela Chess Zero,Fat Fritz,Fat Fritz 2以及有效更新的神经网络(NNUE)以及MAIA。第5章是关于实施微型α。 Shexapawn是国际象棋的简约版本,被用作为此的示例。 Minimax搜索可以解决六ap峰,并产生了监督学习的培训位置。然后,作为比较,实施了类似Alphazero的训练回路,其中通过自我游戏进行训练与强化学习结合在一起。最后,比较了类似α的培训和监督培训。
translated by 谷歌翻译
我们研究了在几个课程之一的未知会员的对手对对手的反复游戏中保证对反对者的低遗憾的问题。我们添加了我们的算法是非利用的约束,因为对手缺乏使用算法的激励,我们无法实现超过一些“公平”价值的奖励。我们的解决方案是一组专家算法(LAFF),该算法(LAFF)在一组子算法内搜索每个对手课程的最佳算法,并在检测对手剥削证据时使用惩罚政策。通过依赖对手课的基准,我们展示了除了剥削者之外的可能对手统一地掩盖了Lublinear的遗憾,我们保证对手有线性遗憾。为了我们的知识,这项工作是第一个在多智能经纪人学习中提供遗憾和非剥削性的保证。
translated by 谷歌翻译
The reinforcement learning paradigm is a popular way to address problems that have only limited environmental feedback, rather than correctly labeled examples, as is common in other machine learning contexts. While significant progress has been made to improve learning in a single task, the idea of transfer learning has only recently been applied to reinforcement learning tasks. The core idea of transfer is that experience gained in learning to perform one task can help improve learning performance in a related, but different, task. In this article we present a framework that classifies transfer learning methods in terms of their capabilities and goals, and then use it to survey the existing literature, as well as to suggest future directions for transfer learning work.
translated by 谷歌翻译
多机构增强学习(MARL)是训练在共同环境中独立起作用的自动化系统的强大工具。但是,当个人激励措施和群体激励措施分歧时,它可能导致次优行为。人类非常有能力解决这些社会困境。在MAL中,复制自私的代理商中的这种合作行为是一个开放的问题。在这项工作中,我们借鉴了经济学正式签约的想法,以克服MARL代理商之间的动力分歧。我们提出了对马尔可夫游戏的增强,在预先指定的条件下,代理商自愿同意约束依赖状态依赖的奖励转移。我们的贡献是理论和经验的。首先,我们表明,这种增强使所有完全观察到的马尔可夫游戏的所有子游戏完美平衡都表现出社会最佳行为,并且鉴于合同的足够丰富的空间。接下来,我们通过表明最先进的RL算法学习了我们的增强术,我们将学习社会最佳政策,从而补充我们的游戏理论分析。我们的实验包括经典的静态困境,例如塔格·亨特(Stag Hunt),囚犯的困境和公共物品游戏,以及模拟交通,污染管理和共同池资源管理的动态互动。
translated by 谷歌翻译
我们考虑非平稳马尔可夫决策过程中的无模型增强学习(RL)。只要其累积变化不超过某些变化预算,奖励功能和国家过渡功能都可以随时间随时间变化。我们提出了重新启动的Q学习,以上置信度范围(RestartQ-UCB),这是第一个用于非平稳RL的无模型算法,并表明它在动态遗憾方面优于现有的解决方案。具体而言,带有freedman型奖励项的restartq-ucb实现了$ \ widetilde {o}(s^{\ frac {1} {3}} {\ frac {\ frac {1} {1} {3}} {3}} {3}} {3}} {3}} {3}} {3}} {3}} {\ delta ^{\ frac {1} {3}} h t^{\ frac {2} {3}}} $,其中$ s $和$ a $分别是$ \ delta> 0 $的状态和动作的数字是变化预算,$ h $是每集的时间步数,而$ t $是时间步长的总数。我们进一步提出了一种名为Double-Restart Q-UCB的无参数算法,该算法不需要事先了解变化预算。我们证明我们的算法是\ emph {几乎是最佳},通过建立$ \ omega的信息理论下限(s^{\ frac {1} {1} {3}}} a^{\ frac {1} {1} {3}}}}}} \ delta^{\ frac {1} {3}} h^{\ frac {2} {3}}}} t^{\ frac {2} {3}}} $,是非稳态RL中的第一个下下限。数值实验可以根据累积奖励和计算效率来验证RISTARTQ-UCB的优势。我们在相关产品的多代理RL和库存控制的示例中证明了我们的结果的力量。
translated by 谷歌翻译
The reward hypothesis posits that, "all of what we mean by goals and purposes can be well thought of as maximization of the expected value of the cumulative sum of a received scalar signal (reward)." We aim to fully settle this hypothesis. This will not conclude with a simple affirmation or refutation, but rather specify completely the implicit requirements on goals and purposes under which the hypothesis holds.
translated by 谷歌翻译
游戏历史悠久的历史悠久地作为人工智能进步的基准。最近,使用搜索和学习的方法在一系列完美的信息游戏中表现出强烈的表现,并且使用游戏理论推理和学习的方法对特定的不完美信息扑克变体表示了很强的性能。我们介绍游戏玩家,一个通用算法,统一以前的方法,结合导游搜索,自助学习和游戏理论推理。游戏播放器是实现大型完美和不完美信息游戏中强大实证性能的第一个算法 - 这是一项真正的任意环境算法的重要一步。我们证明了游戏玩家是声音,融合到完美的游戏,因为可用的计算时间和近似容量增加。游戏播放器在国际象棋上达到了强大的表现,然后击败了最强大的公开可用的代理商,在头上没有限制德克萨斯州扑克(Slumbot),击败了苏格兰院子的最先进的代理人,这是一个不完美的信息游戏,说明了引导搜索,学习和游戏理论推理的价值。
translated by 谷歌翻译
蒙特卡洛树搜索(MCT)是设计游戏机器人或解决顺序决策问题的强大方法。该方法依赖于平衡探索和开发的智能树搜索。MCT以模拟的形式进行随机抽样,并存储动作的统计数据,以在每个随后的迭代中做出更有教育的选择。然而,该方法已成为组合游戏的最新技术,但是,在更复杂的游戏(例如那些具有较高的分支因素或实时系列的游戏)以及各种实用领域(例如,运输,日程安排或安全性)有效的MCT应用程序通常需要其与问题有关的修改或与其他技术集成。这种特定领域的修改和混合方法是本调查的主要重点。最后一项主要的MCT调查已于2012年发布。自发布以来出现的贡献特别感兴趣。
translated by 谷歌翻译