现实世界的顺序决策需要数据驱动的算法,这些算法在整个培训中为性能提供实际保证,同时还可以有效利用数据。无模型的深入强化学习代表了此类数据驱动决策的框架,但是现有算法通常只关注其中一个目标,同时牺牲了相对于另一个目标。政策算法确保整个培训的政策改进,但遭受了较高的样本复杂性,而政策算法则可以通过样本重用,但缺乏理论保证来有效利用数据。为了平衡这些竞争目标,我们开发了一系列广义政策改进算法,这些算法结合了政策改进的政策保证和理论支持的样本重用的效率。我们通过对DeepMind Control Suite的各种连续控制任务进行广泛的实验分析来证明这种新算法的好处。
translated by 谷歌翻译
Model-free deep reinforcement learning (RL) algorithms have been demonstrated on a range of challenging decision making and control tasks. However, these methods typically suffer from two major challenges: very high sample complexity and brittle convergence properties, which necessitate meticulous hyperparameter tuning. Both of these challenges severely limit the applicability of such methods to complex, real-world domains. In this paper, we propose soft actor-critic, an offpolicy actor-critic deep RL algorithm based on the maximum entropy reinforcement learning framework. In this framework, the actor aims to maximize expected reward while also maximizing entropy. That is, to succeed at the task while acting as randomly as possible. Prior deep RL methods based on this framework have been formulated as Q-learning methods. By combining off-policy updates with a stable stochastic actor-critic formulation, our method achieves state-of-the-art performance on a range of continuous control benchmark tasks, outperforming prior on-policy and off-policy methods. Furthermore, we demonstrate that, in contrast to other off-policy algorithms, our approach is very stable, achieving very similar performance across different random seeds.
translated by 谷歌翻译
We describe an iterative procedure for optimizing policies, with guaranteed monotonic improvement. By making several approximations to the theoretically-justified procedure, we develop a practical algorithm, called Trust Region Policy Optimization (TRPO). This algorithm is similar to natural policy gradient methods and is effective for optimizing large nonlinear policies such as neural networks. Our experiments demonstrate its robust performance on a wide variety of tasks: learning simulated robotic swimming, hopping, and walking gaits; and playing Atari games using images of the screen as input. Despite its approximations that deviate from the theory, TRPO tends to give monotonic improvement, with little tuning of hyperparameters.
translated by 谷歌翻译
为了在许多因素动态影响输出轨迹的复杂随机系统上学习,希望有效利用从以前迭代中收集的历史样本中的信息来加速策略优化。经典的经验重播使代理商可以通过重复使用历史观察来记住。但是,处理所有观察结果的统一重复使用策略均忽略了不同样本的相对重要性。为了克服这一限制,我们提出了一个基于一般差异的经验重播(VRER)框架,该框架可以选择性地重复使用最相关的样本以改善策略梯度估计。这种选择性机制可以自适应地对过去的样品增加重量,这些样本更可能由当前目标分布产生。我们的理论和实证研究表明,提议的VRER可以加速学习最佳政策,并增强最先进的政策优化方法的性能。
translated by 谷歌翻译
为了在许多因素动态影响输出轨迹的复杂随机系统上学习,希望有效利用从以前迭代中收集的历史样本中的信息来加速策略优化。经典的经验重播使代理商可以通过重复使用历史观察来记住。但是,处理所有观察结果的统一重复使用策略均忽略了不同样本的相对重要性。为了克服这一限制,我们提出了一个基于一般差异的经验重播(VRER)框架,该框架可以选择性地重复使用最相关的样本以改善策略梯度估计。这种选择性机制可以自适应地对过去的样品增加重量,这些样本更可能由当前目标分布产生。我们的理论和实证研究表明,提议的VRER可以加速学习最佳政策,并增强最先进的政策优化方法的性能。
translated by 谷歌翻译
我们提出了一个与参数化函数近似器无关的分析策略更新规则。更新规则适用于单调改进保证的一般随机策略。在使用信任区域方法中收紧策略搜索的新的理论结果之后,更新规则源自使用变化阶段的闭合表单信任区域解决方案。提供了策略更新规则和值函数方法之间连接的解释。基于更新规则的递归形式,自然导出了脱助策略算法,单调改进保证仍然存在。此外,当一次代理执行更新时,更新规则立即扩展到多代理系统。
translated by 谷歌翻译
For many applications of reinforcement learning it can be more convenient to specify both a reward function and constraints, rather than trying to design behavior through the reward function. For example, systems that physically interact with or around humans should satisfy safety constraints. Recent advances in policy search algorithms (
translated by 谷歌翻译
政策优化是设计强化学习算法的基本原则,一个例子是具有剪切的替代物镜(PPO-CLIP)的近端政策优化算法(PPO-CLIP),由于其简单性和有效性,该算法已被普遍用于深度强化学习。尽管具有出色的经验表现,但PPO-CLIP尚未通过最新的理论证明是合理的。在本文中,我们在神经功能近似下建立了PPO-CLIP的第一个全局收敛速率。我们确定分析PPO-CLIP的基本挑战并用两个核心思想解决:(i)我们从铰链损失的角度重新解释了PPO-CLIP,这将政策改进与解决铰链损失和铰链损失和铰链损失和铰链分类问题的联系联系起来。提供PPO-CLIP目标的广义版。 (ii)基于上面的观点,我们提出了一个两步的策略改进方案,该方案通过熵镜下降和基于回归的策略更新方案从复杂的神经策略参数借助复杂的神经策略参数化来促进收敛分析。此外,我们的理论结果提供了剪辑机理对PPO-CLIP收敛的影响的首次表征。通过实验,我们从经验上验证了PPO-CLIP的重新解释,并在各种RL基准任务上具有各种分类器的广义目标。
translated by 谷歌翻译
Learning policies from fixed offline datasets is a key challenge to scale up reinforcement learning (RL) algorithms towards practical applications. This is often because off-policy RL algorithms suffer from distributional shift, due to mismatch between dataset and the target policy, leading to high variance and over-estimation of value functions. In this work, we propose variance regularization for offline RL algorithms, using stationary distribution corrections. We show that by using Fenchel duality, we can avoid double sampling issues for computing the gradient of the variance regularizer. The proposed algorithm for offline variance regularization (OVAR) can be used to augment any existing offline policy optimization algorithms. We show that the regularizer leads to a lower bound to the offline policy optimization objective, which can help avoid over-estimation errors, and explains the benefits of our approach across a range of continuous control domains when compared to existing state-of-the-art algorithms.
translated by 谷歌翻译
资产分配(或投资组合管理)是确定如何最佳将有限预算的资金分配给一系列金融工具/资产(例如股票)的任务。这项研究调查了使用无模型的深RL代理应用于投资组合管理的增强学习(RL)的性能。我们培训了几个RL代理商的现实股票价格,以学习如何执行资产分配。我们比较了这些RL剂与某些基线剂的性能。我们还比较了RL代理,以了解哪些类别的代理表现更好。从我们的分析中,RL代理可以执行投资组合管理的任务,因为它们的表现明显优于基线代理(随机分配和均匀分配)。四个RL代理(A2C,SAC,PPO和TRPO)总体上优于最佳基线MPT。这显示了RL代理商发现更有利可图的交易策略的能力。此外,基于价值和基于策略的RL代理之间没有显着的性能差异。演员批评者的表现比其他类型的药物更好。同样,在政策代理商方面的表现要好,因为它们在政策评估方面更好,样品效率在投资组合管理中并不是一个重大问题。这项研究表明,RL代理可以大大改善资产分配,因为它们的表现优于强基础。基于我们的分析,在政策上,参与者批评的RL药物显示出最大的希望。
translated by 谷歌翻译
Effectively leveraging large, previously collected datasets in reinforcement learning (RL) is a key challenge for large-scale real-world applications. Offline RL algorithms promise to learn effective policies from previously-collected, static datasets without further interaction. However, in practice, offline RL presents a major challenge, and standard off-policy RL methods can fail due to overestimation of values induced by the distributional shift between the dataset and the learned policy, especially when training on complex and multi-modal data distributions. In this paper, we propose conservative Q-learning (CQL), which aims to address these limitations by learning a conservative Q-function such that the expected value of a policy under this Q-function lower-bounds its true value. We theoretically show that CQL produces a lower bound on the value of the current policy and that it can be incorporated into a policy learning procedure with theoretical improvement guarantees. In practice, CQL augments the standard Bellman error objective with a simple Q-value regularizer which is straightforward to implement on top of existing deep Q-learning and actor-critic implementations. On both discrete and continuous control domains, we show that CQL substantially outperforms existing offline RL methods, often learning policies that attain 2-5 times higher final return, especially when learning from complex and multi-modal data distributions.Preprint. Under review.
translated by 谷歌翻译
设计有效的基于模型的增强学习算法很困难,因为必须对模型生成数据的偏置权衡数据生成的易用性。在本文中,我们研究了模型使用在理论上和经验上的政策优化中的作用。我们首先制定和分析一种基于模型的加强学习算法,并在每个步骤中保证单调改善。在实践中,该分析过于悲观,并表明实际的脱助策略数据总是优选模拟策略数据,但我们表明可以将模型概括的经验估计纳入这样的分析以证明模型使用证明模型使用。通过这种分析的动机,我们证明,使用从真实数据分支的短模型生成的卷展栏的简单过程具有更复杂的基于模型的算法而没有通常的缺陷的效益。特别是,这种方法超越了基于模型的方法的样本效率,匹配了最佳无模型算法的渐近性能,并缩放到导致其他基于模型的方法完全失败的视野。
translated by 谷歌翻译
深度加强学习的最近成功的大部分是由正常化的政策优化(RPO)算法驱动,具有跨多个域的强大性能。在这家族的方法中,代理经过培训,以在惩罚某些引用或默认策略的行为中的偏差时最大化累积奖励。除了经验的成功外,还有一个强大的理论基础,了解应用于单一任务的RPO方法,与自然梯度,信任区域和变分方法有关。但是,对于多任务设置中的默认策略,对所需属性的正式理解有限,越来越重要的域作为现场转向培训更有能力的代理商。在这里,我们通过将默认策略的质量与其对优化的影响正式链接到其对其影响的效果方面,进行第一步才能填补这种差距。使用这些结果,我们将获得具有强大性能保证的多任务学习的原则性的RPO算法。
translated by 谷歌翻译
强化学习的主要困难之一是从{\ em dobsolicy}样本中学习,这些样本是由算法评估(目标策略)的不同策略(行为策略)收集的。非政策学习需要从行为政策中纠正样本的分布到目标策略的分布。不幸的是,重要的抽样具有固有的高方差问题,从而导致策略梯度方法的梯度估计差。我们专注于范围的参与者 - 批评体系结构,并提出了一种称为预处理近端政策优化(P3O)的新方法,该方法可以通过将预处理程序应用于保守政策迭代(CPI)目标来控制重要性采样的较高差异。 {\ em此预处理以一种特殊的方式使用Sigmoid函数,即当没有策略更改时,梯度是最大的,因此策略梯度将驱动大参数更新以有效地探索参数空间}。这是一种新颖的探索方法,鉴于现有的探索方法是基于国家和行动的新颖性,尚未对其进行研究。我们与离散和连续任务上的几种表现最好的算法进行了比较,结果表明{\ em ppo不足以实现异位},并且我们的p3O比ppo {\ em off-policy}比ppo比“根据off off ppo”。 - 通过Deon Metric衡量的Policyness,P3O在比PPO更大的政策空间中探索。结果还表明,在训练过程中,我们的P3O比PPO更好地提高了CPI目标。
translated by 谷歌翻译
我们提供了一种新的单调改进保证,以优化合作多代理增强学习(MARL)中的分散政策,即使过渡动态是非平稳的。这项新分析提供了对两种最新的MARL参与者批评方法的强劲表现的理论理解,即独立的近端策略优化(IPPO)和多代理PPO(MAPPO)(MAPPO),它们都依赖于独立比率,即计算概率,每个代理商的政策分别比率。我们表明,尽管独立比率引起的非平稳性,但由于对所有分散政策的信任区域约束,仍会产生单调的改进保证。我们还可以根据培训中的代理数量来界定独立比率,从而以原则性的方式有效地执行这种信任区域约束,从而为近端剪辑提供了理论基础。此外,我们表明,当IPPO和Mappo中优化的替代目标在批评者收敛到固定点时实质上是等效的。最后,我们的经验结果支持以下假设:IPPO和MAPPO的强劲表现是通过削减集中式培训来执行这种信任区域约束的直接结果,而该执行的超参数的良好值对此对此具有高度敏感性正如我们的理论分析所预测的那样。
translated by 谷歌翻译
政策梯度(PG)算法是备受期待的强化学习对现实世界控制任务(例如机器人技术)的最佳候选人之一。但是,每当必须在物理系统上执行学习过程本身或涉及任何形式的人类计算机相互作用时,这些方法的反复试验性质就会提出安全问题。在本文中,我们解决了一种特定的安全公式,其中目标和危险都以标量奖励信号进行编码,并且学习代理被限制为从不恶化其性能,以衡量为预期的奖励总和。通过从随机优化的角度研究仅行为者的政策梯度,我们为广泛的参数政策建立了改进保证,从而将现有结果推广到高斯政策上。这与策略梯度估计器的差异的新型上限一起,使我们能够识别出具有很高概率的单调改进的元参数计划。两个关键的元参数是参数更新的步长和梯度估计的批处理大小。通过对这些元参数的联合自适应选择,我们获得了具有单调改进保证的政策梯度算法。
translated by 谷歌翻译
大多数前往离线强化学习(RL)的方法都采取了一种迭代演员 - 批评批评,涉及违规评估。在本文中,我们展示了使用行为政策的政策Q估计来令人惊讶地执行一步的Q估计,从而简单地执行一个受限制/正规化的政策改进的步骤。该一步算法在大部分D4RL基准测试中击败了先前报告的迭代算法的结果。一步基线实现了这种强劲的性能,同时对超公数更简单,更强大而不是先前提出的迭代算法。我们认为迭代方法的表现相对较差是在违反政策评估中固有的高方差,并通过对这些估计的重复优化的政策进行放大。此外,我们假设一步算法的强大性能是由于环境和行为政策中有利结构的组合。
translated by 谷歌翻译
重要性采样(IS)是非政策评估中的一种流行技术,它重新赋予了重播缓冲液中轨迹的回归以提高样本效率。但是,对IS进行培训可能是不稳定的,以前试图解决此问题的尝试主要集中于分析IS的差异。在本文中,我们揭示了不稳定性与IS的重复使用偏见的新概念有关 - 由重复使用缓冲液重用进行评估和优化引起的非政策评估偏差。从理论上讲,我们证明了对当前策略的非政策评估和优化,并通过重播缓冲区的数据导致目标高估,这可能会导致错误的梯度更新并退化性能。我们进一步提供了重复使用偏差的高概率上限,并表明控制上限的一个项可以通过引入非政策算法的稳定性概念来控制重复使用偏置。基于这些分析,我们最终提出了一种新颖的偏见调查重要性抽样(BIRIS)框架以及实际算法,可以减轻重复使用偏见的负面影响。实验结果表明,我们基于BIRIS的方法可以显着提高一系列连续控制任务的样品效率。
translated by 谷歌翻译
常见的策略梯度方法依赖于代理函数序列的最大化。近年来,已经提出了许多这样的代理功能,大多数没有强烈的理论担保,导致TRPO,PPO或MPO等算法。我们而不是设计另一个代理函数,而是根据功能镜中的函数提出一般框架(FMA-PG),这导致了整个代理功能。我们构建了使策略改进保证能够担保的代理功能,这是由最现有的代理职能共享的属性。至关重要,无论政策参数化的选择如何,这些保证都会持有。此外,FMA-PG的特定实例化恢复了重要的实施启发式(例如,使用前向VS反向KL发散),导致TRPO的变体具有额外的理想性质。通过对简单强盗问题的实验,我们评估FMA-PG实例化的算法。拟议的框架还提出了一种改进的PPO变体,其鲁棒性和效率我们在Mujoco套件上证明。
translated by 谷歌翻译
大多数加固学习算法优化了折扣标准,这些标准是有益的,可以加速收敛并降低估计的方差。虽然折扣标准适用于诸如财务相关问题的某些任务,但许多工程问题同样对待未来的奖励,并更喜欢长期的平均标准。在本文中,我们研究了长期平均标准的强化学习问题。首先,我们在折扣和平均标准中制定统一的信任区域理论,并在扰动分析(PA)理论中导出信托区域内的新颖性能。其次,我们提出了一种名为平均策略优化(APO)的实用算法,其提高了名为平均值约束的新颖技术的值估计。最后,实验在连续控制环境Mujoco中进行。在大多数任务中,APO比折扣PPO更好,这表明了我们方法的有效性。我们的工作提供了统一的信任地区方法,包括折扣和平均标准,这可能会补充折扣目标超出了钢筋学习的框架。
translated by 谷歌翻译