精确学习动力学模型是基于模型的增强学习(MBRL)的重要目标,但是大多数MBRL方法都学习了一个易于虚假相关性的密集动力学模型,因此对看不见的状态的推广不佳。在本文中,我们引入了与任务无关的状态抽象(CDL)的因果动力学学习,该学习首先学习了理论上证明的因果动力学模型,该模型消除了状态变量和动作之间不必要的依赖性,从而很好地推广到了看不见的状态。然后可以从学习的动力学中得出状态抽象,这不仅提高了样本效率,而且还适用于与现有状态抽象方法更广泛的任务范围。在两个模拟环境和下游任务上进行了评估,所提出的方法学到的动力学模型和政策都可以很好地推广到看不见的状态,而派生的态度抽象则提高了样本效率,而没有它。
translated by 谷歌翻译
作为在人类智能中获得可推广的解决方案的关键组成部分,推理为加强学习(RL)代理人对各种目标的概括提供了巨大的潜力,这是通过汇总部分到全部的论点并发现因果关系的。但是,如何发现和代表因果关系仍然是阻碍因果RL发展的巨大差距。在本文中,我们使用因果图(CG)增强目标条件的RL(GCRL),该结构是基于对象和事件之间的关系建立的。我们在小新生中将GCRL问题提出为变异的可能性最大化,将CG作为潜在变量。为了优化派生目标,我们提出了一个具有理论性能的框架,可以保证在两个步骤之间交替:使用介入数据来估计CG的后验;使用CG学习可推广的模型和可解释的政策。由于缺乏在推理下验证概括能力的公共基准测试,我们设计了九个任务,然后从经验上显示了对这些任务上五个基准的拟议方法的有效性。进一步的理论分析表明,我们的绩效提高归因于因果发现,过渡建模和政策培训的良性周期,这与广泛消融研究中的实验证据相吻合。
translated by 谷歌翻译
许多增强学习(RL)环境包括独立实体,这些实体稀疏地互动。在这种环境中,RL代理商在任何特定情况下对其他实体的影响仅受限。我们在这项工作中的想法是,通过了解代理人可以通过其行动的何时以及何时何地效力,可以有效地指导。为实现这一目标,我们根据条件互信息介绍\ emph {情况依赖性因果影响},并表明它可以可靠地检测影响的态度。然后,我们提出了几种方法将这种措施集成到RL算法中,以改善探索和禁止政策学习。所有修改的算法都显示出机器人操纵任务的数据效率强劲增加。
translated by 谷歌翻译
Adequately assigning credit to actions for future outcomes based on their contributions is a long-standing open challenge in Reinforcement Learning. The assumptions of the most commonly used credit assignment method are disadvantageous in tasks where the effects of decisions are not immediately evident. Furthermore, this method can only evaluate actions that have been selected by the agent, making it highly inefficient. Still, no alternative methods have been widely adopted in the field. Hindsight Credit Assignment is a promising, but still unexplored candidate, which aims to solve the problems of both long-term and counterfactual credit assignment. In this thesis, we empirically investigate Hindsight Credit Assignment to identify its main benefits, and key points to improve. Then, we apply it to factored state representations, and in particular to state representations based on the causal structure of the environment. In this setting, we propose a variant of Hindsight Credit Assignment that effectively exploits a given causal structure. We show that our modification greatly decreases the workload of Hindsight Credit Assignment, making it more efficient and enabling it to outperform the baseline credit assignment method on various tasks. This opens the way to other methods based on given or learned causal structures.
translated by 谷歌翻译
设计人工代理商是一个长期的梦想,可以通过内在动机有效地探索其环境,这类似于孩子们的表演方式。尽管最新的本质上动机增强学习(RL)的进步,但在物体操纵方案中的样本效率探索仍然是一个重大挑战,因为大多数相关信息都在于稀疏的代理对象和对象对象相互作用。在本文中,我们建议使用结构化的世界模型将关系电感偏置纳入控制回路中,以实现组成多对象环境中的样品效率和相互作用富含的探索。通过计划未来的新颖性结构化世界模型,我们的方法生成了自由播放的行为,这些行为早期就开始与对象交互,并随着时间的推移发展更复杂的行为。我们的方法不仅仅是使用模型来计算固有的奖励,我们的方法表明,良好模型和良好探索之间的自我增强周期也开辟了另一条途径:通过基于模型的计划,零击向下游任务。在完全固有的任务不足探索阶段之后,我们的方法解决了诸如堆叠,翻转,拾取和地点之类的挑战性下游任务,并投掷,这些任务概括为看不见的数字和对象的安排,而无需任何其他培训。
translated by 谷歌翻译
有效的探索是深度强化学习的关键挑战。几种方法,例如行为先验,能够利用离线数据,以便在复杂任务上有效加速加强学习。但是,如果手动的任务与所证明的任务过度偏离,则此类方法的有效性是有限的。在我们的工作中,我们建议从离线数据中学习功能,这些功能由更加多样化的任务共享,例如动作与定向之间的相关性。因此,我们介绍了无国有先验,该先验直接在显示的轨迹中直接建模时间一致性,并且即使在对简单任务收集的数据进行培训时,也能够在复杂的任务中推动探索。此外,我们通过从政策和行动之前的概率混合物中动态采样动作,引入了一种新颖的集成方案,用于非政策强化学习中的动作研究。我们将我们的方法与强大的基线相提并论,并提供了经验证据,表明它可以在稀疏奖励环境下的长途持续控制任务中加速加强学习。
translated by 谷歌翻译
一个沿着城市街道行走的人试图对世界各个方面进行建模,这很快就会被许多商店,汽车和人们遵循自己的复杂且难以理解的动态所淹没。在这种环境中的探索和导航是一项日常任务,不需要大量精神资源。是否可以将这种感官信息的消防软管转变为最小的潜在状态,这是代理在世界上成功采取行动的必要和足够的?我们具体地提出了这个问题,并提出了可控制的状态发现算法(AC-State),该算法具有理论保证,并且实际上被证明可以发现\ textit {最小可控的潜在状态},其中包含所有用于控制控制的信息代理,同时完全丢弃所有无关的信息。该算法由一个具有信息瓶颈的多步逆模型(预测遥远观察结果的动作)组成。 AC-State可以在没有奖励或示威的情况下实现本地化,探索和导航。我们证明了在三个领域中发现可控潜在状态的发现:将机器人组分散注意力(例如,照明条件和背景变化),与其他代理商一起在迷宫中进行探索,并在Matterport House Simulator中导航。
translated by 谷歌翻译
基于模型的增强学习(RL)是一种通过利用学习的单步动力学模型来计划想象中的动作来学习复杂行为的样本效率方法。但是,计划为长马操作计划的每项行动都是不切实际的,类似于每个肌肉运动的人类计划。相反,人类有效地计划具有高级技能来解决复杂的任务。从这种直觉中,我们提出了一个基于技能的RL框架(SKIMO),该框架能够使用技能动力学模型在技能空间中进行计划,该模型直接预测技能成果,而不是预测中级状态中的所有小细节,逐步。为了准确有效的长期计划,我们共同学习了先前经验的技能动力学模型和技能曲目。然后,我们利用学到的技能动力学模型准确模拟和计划技能空间中的长范围,这可以有效地学习长摩盛,稀疏的奖励任务。导航和操纵域中的实验结果表明,Skimo扩展了基于模型的方法的时间范围,并提高了基于模型的RL和基于技能的RL的样品效率。代码和视频可在\ url {https://clvrai.com/skimo}上找到
translated by 谷歌翻译
我们介绍了忙碌的板,这是一种受玩具启发的机器人学习环境,它利用一组铰接的对象和对象间功能关系,为机器人交互提供丰富的视觉反馈。基于这种环境,我们介绍了一个学习框架,即Busughbot,该框架允许代理商以综合和自欺欺人的方式共同获得三个基本功能(互动,推理和计划)。凭借繁忙板提供的丰富感官反馈,Busudbot首先学习了有效与环境互动的政策;然后,随着使用该策略收集的数据,Busybot的原因是通过因果发现网络对象间功能关系;最后,通过结合学习的交互政策和关系推理技能,代理可以执行目标条件的操纵任务。我们在模拟环境和现实环境中评估了忙碌的机器人,并验证了其看不见的对象和关系的概括性。视频可从https://youtu.be/ej98xbjz9ek获得。
translated by 谷歌翻译
人类通常通过将它们分解为更容易的子问题,然后结合子问题解决方案来解决复杂的问题。这种类型的组成推理允许在解决共享一部分基础构图结构的未来任务时重复使用子问题解决方案。在持续或终身的强化学习(RL)设置中,将知识分解为可重复使用的组件的能力将使代理通过利用积累的组成结构来快速学习新的RL任务。我们基于神经模块探索一种特定形式的组成形式,并提出了一组RL问题,可以直观地接受组成溶液。从经验上讲,我们证明了神经组成确实捕获了问题空间的基本结构。我们进一步提出了一种构图终身RL方法,该方法利用累积的神经成分来加速学习未来任务的学习,同时通过离线RL通过离线RL保留以前的RL,而不是重播经验。
translated by 谷歌翻译
The ability to effectively reuse prior knowledge is a key requirement when building general and flexible Reinforcement Learning (RL) agents. Skill reuse is one of the most common approaches, but current methods have considerable limitations.For example, fine-tuning an existing policy frequently fails, as the policy can degrade rapidly early in training. In a similar vein, distillation of expert behavior can lead to poor results when given sub-optimal experts. We compare several common approaches for skill transfer on multiple domains including changes in task and system dynamics. We identify how existing methods can fail and introduce an alternative approach to mitigate these problems. Our approach learns to sequence existing temporally-extended skills for exploration but learns the final policy directly from the raw experience. This conceptual split enables rapid adaptation and thus efficient data collection but without constraining the final solution.It significantly outperforms many classical methods across a suite of evaluation tasks and we use a broad set of ablations to highlight the importance of differentc omponents of our method.
translated by 谷歌翻译
在现实世界中,感知的信号通常是高维且嘈杂的,并且在下游决策任务所需的必要和充分信息中找到和使用其表示形式,将有助于提高任务中的计算效率和概括能力。在本文中,我们专注于部分可观察到的环境,并建议学习一组最小的状态表示,以捕获足够的决策信息以进行决策,称为\ textIt {动作充足的状态表示}(ASRS)。我们为系统中变量之间的结构关系构建了生成环境模型,并提出了一种基于结构约束的ASRS来表征ASR的原则方法,以及在政策学习中最大程度地提高累积奖励的目标。然后,我们开发一个结构化的顺序变异自动编码器来估计环境模型并提取ASRS。我们关于载载和Vizdoom的经验结果证明了学习和使用ASRS进行政策学习的明显优势。此外,估计的环境模型和ASR允许从紧凑的潜在空间中想象的结果中学习行为,以提高样品效率。
translated by 谷歌翻译
尽管深度强化学习(RL)最近取得了许多成功,但其方法仍然效率低下,这使得在数据方面解决了昂贵的许多问题。我们的目标是通过利用未标记的数据中的丰富监督信号来进行学习状态表示,以解决这一问题。本文介绍了三种不同的表示算法,可以访问传统RL算法使用的数据源的不同子集使用:(i)GRICA受到独立组件分析(ICA)的启发,并训练深层神经网络以输出统计独立的独立特征。输入。 Grica通过最大程度地减少每个功能与其他功能之间的相互信息来做到这一点。此外,格里卡仅需要未分类的环境状态。 (ii)潜在表示预测(LARP)还需要更多的上下文:除了要求状态作为输入外,它还需要先前的状态和连接它们的动作。该方法通过预测当前状态和行动的环境的下一个状态来学习状态表示。预测器与图形搜索算法一起使用。 (iii)重新培训通过训练深层神经网络来学习国家表示,以学习奖励功能的平滑版本。该表示形式用于预处理输入到深度RL,而奖励预测指标用于奖励成型。此方法仅需要环境中的状态奖励对学习表示表示。我们发现,每种方法都有其优势和缺点,并从我们的实验中得出结论,包括无监督的代表性学习在RL解决问题的管道中可以加快学习的速度。
translated by 谷歌翻译
在部分可观察域中的预测和规划的常见方法是使用经常性的神经网络(RNN),其理想地开发和维持关于隐藏,任务相关因素的潜伏。我们假设物理世界中的许多这些隐藏因素随着时间的推移是恒定的,而只是稀疏变化。为研究这一假设,我们提出了Gated $ L_0 $正规化的动态(Gatel0rd),一种新的经常性架构,它包含归纳偏差,以保持稳定,疏口改变潜伏状态。通过新颖的内部门控功能和潜在状态变化的$ l_0 $ norm的惩罚来实现偏差。我们证明Gatel0rd可以在各种部分可观察到的预测和控制任务中与最先进的RNN竞争或优于最先进的RNN。 Gatel0rd倾向于编码环境的基础生成因子,忽略了虚假的时间依赖性,并概括了更好的,提高了基于模型的规划和加强学习任务中的采样效率和整体性能。此外,我们表明可以容易地解释开发的潜在状态,这是朝着RNN中更好地解释的步骤。
translated by 谷歌翻译
强化学习可以培训有效执行复杂任务的政策。然而,对于长地平线任务,这些方法的性能与地平线脱落,通常需要推理和构成较低级别的技能。等级强化学习旨在通过为行动抽象提供一组低级技能来实现这一点。通过抽象空间状态,层次结构也可以进一步提高这一点。我们对适当的状态抽象应取决于可用的较低级别策略的功能。我们提出了价值函数空间:通过使用与每个较低级别的技能对应的值函数来产生这种表示的简单方法。这些价值函数捕获场景的可取性,从而形成了紧凑型摘要任务相关信息的表示,并强大地忽略了分散的人。迷宫解决和机器人操纵任务的实证评估表明,我们的方法提高了长地平的性能,并且能够比替代的无模型和基于模型的方法能够更好的零拍泛化。
translated by 谷歌翻译
长摩根和包括一系列隐性子任务的日常任务仍然在离线机器人控制中构成了重大挑战。尽管许多先前的方法旨在通过模仿和离线增强学习的变体来解决这种设置,但学习的行为通常是狭窄的,并且经常努力实现可配置的长匹配目标。由于这两个范式都具有互补的优势和劣势,因此我们提出了一种新型的层次结构方法,结合了两种方法的优势,以从高维相机观察中学习任务无关的长胜压策略。具体而言,我们结合了一项低级政策,该政策通过模仿学习和从离线强化学习中学到的高级政策学习潜在的技能,以促进潜在的行为先验。各种模拟和真实机器人控制任务的实验表明,我们的配方使以前看不见的技能组合能够通过“缝制”潜在技能通过目标链条,并在绩效上提高绩效的顺序,从而实现潜在的目标。艺术基线。我们甚至还学习了一个多任务视觉运动策略,用于现实世界中25个不同的操纵任务,这既优于模仿学习和离线强化学习技术。
translated by 谷歌翻译
对于在现实世界中运营的机器人来说,期望学习可以有效地转移和适应许多任务和场景的可重复使用的行为。我们提出了一种使用分层混合潜变量模型来从数据中学习抽象运动技能的方法。与现有工作相比,我们的方法利用了离散和连续潜在变量的三级层次结构,以捕获一组高级行为,同时允许如何执行它们的差异。我们在操纵域中展示该方法可以有效地将离线数据脱落到不同的可执行行为,同时保留连续潜变量模型的灵活性。由此产生的技能可以在新的任务,看不见的对象和州内转移和微调到基于视觉的策略,与现有的技能和仿制的方法相比,产生更好的样本效率和渐近性能。我们进一步分析了技能最有益的方式以及何时:他们鼓励定向探索来涵盖与任务相关的国家空间的大区域,使其在挑战稀疏奖励环境中最有效。
translated by 谷歌翻译
从意外的外部扰动中恢复的能力是双模型运动的基本机动技能。有效的答复包括不仅可以恢复平衡并保持稳定性的能力,而且在平衡恢复物质不可行时,也可以保证安全的方式。对于与双式运动有关的机器人,例如人形机器人和辅助机器人设备,可帮助人类行走,设计能够提供这种稳定性和安全性的控制器可以防止机器人损坏或防止伤害相关的医疗费用。这是一个具有挑战性的任务,因为它涉及用触点产生高维,非线性和致动系统的高动态运动。尽管使用基于模型和优化方法的前进方面,但诸如广泛领域知识的要求,诸如较大的计算时间和有限的动态变化的鲁棒性仍然会使这个打开问题。在本文中,为了解决这些问题,我们开发基于学习的算法,能够为两种不同的机器人合成推送恢复控制政策:人形机器人和有助于双模型运动的辅助机器人设备。我们的工作可以分为两个密切相关的指示:1)学习人形机器人的安全下降和预防策略,2)使用机器人辅助装置学习人类的预防策略。为实现这一目标,我们介绍了一套深度加强学习(DRL)算法,以学习使用这些机器人时提高安全性的控制策略。
translated by 谷歌翻译
Skill-based reinforcement learning (RL) has emerged as a promising strategy to leverage prior knowledge for accelerated robot learning. Skills are typically extracted from expert demonstrations and are embedded into a latent space from which they can be sampled as actions by a high-level RL agent. However, this skill space is expansive, and not all skills are relevant for a given robot state, making exploration difficult. Furthermore, the downstream RL agent is limited to learning structurally similar tasks to those used to construct the skill space. We firstly propose accelerating exploration in the skill space using state-conditioned generative models to directly bias the high-level agent towards only sampling skills relevant to a given state based on prior experience. Next, we propose a low-level residual policy for fine-grained skill adaptation enabling downstream RL agents to adapt to unseen task variations. Finally, we validate our approach across four challenging manipulation tasks that differ from those used to build the skill space, demonstrating our ability to learn across task variations while significantly accelerating exploration, outperforming prior works. Code and videos are available on our project website: https://krishanrana.github.io/reskill.
translated by 谷歌翻译
深度强化学习(DRL)和深度多机构的强化学习(MARL)在包括游戏AI,自动驾驶汽车,机器人技术等各种领域取得了巨大的成功。但是,众所周知,DRL和Deep MARL代理的样本效率低下,即使对于相对简单的问题设置,通常也需要数百万个相互作用,从而阻止了在实地场景中的广泛应用和部署。背后的一个瓶颈挑战是众所周知的探索问题,即如何有效地探索环境和收集信息丰富的经验,从而使政策学习受益于最佳研究。在稀疏的奖励,吵闹的干扰,长距离和非平稳的共同学习者的复杂环境中,这个问题变得更加具有挑战性。在本文中,我们对单格和多代理RL的现有勘探方法进行了全面的调查。我们通过确定有效探索的几个关键挑战开始调查。除了上述两个主要分支外,我们还包括其他具有不同思想和技术的著名探索方法。除了算法分析外,我们还对一组常用基准的DRL进行了全面和统一的经验比较。根据我们的算法和实证研究,我们终于总结了DRL和Deep Marl中探索的公开问题,并指出了一些未来的方向。
translated by 谷歌翻译