找到同一问题的不同解决方案是与创造力和对新颖情况的适应相关的智能的关键方面。在钢筋学习中,一套各种各样的政策对于勘探,转移,层次结构和鲁棒性有用。我们提出了各种各样的连续政策,一种发现在继承人功能空间中多样化的政策的方法,同时确保它们接近最佳。我们将问题形式形式化为受限制的马尔可夫决策过程(CMDP),目标是找到最大化多样性的政策,其特征在于内在的多样性奖励,同时对MDP的外在奖励保持近乎最佳。我们还分析了最近提出的稳健性和歧视奖励的绩效,并发现它们对程序的初始化敏感,并且可以收敛到次优溶液。为了缓解这一点,我们提出了新的明确多样性奖励,该奖励旨在最大限度地减少集合中策略的继承人特征之间的相关性。我们比较深度控制套件中的不同多样性机制,发现我们提出的明确多样性的类型对于发现不同的行为是重要的,例如不同的运动模式。
translated by 谷歌翻译
我们研究如何构建一组可以组成的政策来解决一个加强学习任务的集合。每个任务都是不同的奖励函数,被定义为已知功能的线性组合。我们考虑一下我们呼吁改进政策的特定策略组合(SIPS):给定一套政策和一系列任务,SIP是前者的任何构成,其性能至少与其成分的表现相当好所有任务。我们专注于啜饮的最保守的实例化,Set-Max政策(SMPS),因此我们的分析扩展到任何SIP。这包括已知的策略组合运营商,如广义政策改进。我们的主要贡献是一种策略迭代算法,构建一组策略,以最大限度地提高所得SMP的最坏情况性能。该算法通过连续向集合添加新策略来工作。我们表明,生成的SMP的最坏情况性能严格地改善了每次迭代,并且算法仅在不存在导致改进性能的策略时停止。我们经验在网格世界上进行了验证评估了算法,也是来自DeepMind控制套件的一组域。我们确认了我们关于我们算法的单调性能的理论结果。有趣的是,我们还经验展示了算法计算的政策集是多样的,导致网格世界中的不同轨迹以及控制套件中的非常独特的运动技能。
translated by 谷歌翻译
最大化马尔可夫和固定的累积奖励函数,即在国家行动对和时间独立于时间上定义,足以在马尔可夫决策过程(MDP)中捕获多种目标。但是,并非所有目标都可以以这种方式捕获。在本文中,我们研究了凸MDP,其中目标表示为固定分布的凸功能,并表明它们不能使用固定奖励函数进行配制。凸MDP将标准加强学习(RL)问题提出概括为一个更大的框架,其中包括许多受监督和无监督的RL问题,例如学徒学习,约束MDP和所谓的“纯探索”。我们的方法是使用Fenchel二重性将凸MDP问题重新将凸MDP问题重新制定为涉及政策和成本(负奖励)的最小游戏。我们提出了一个用于解决此问题的元偏金属,并表明它统一了文献中许多现有的算法。
translated by 谷歌翻译
在许多实际应用程序中,强化学习(RL)代理可能必须解决多个任务,每个任务通常都是通过奖励功能建模的。如果奖励功能是线性表达的,并且代理商以前已经学会了一组针对不同任务的策略,则可以利用后继功能(SFS)来组合此类策略并确定有关新问题的合理解决方案。但是,确定的解决方案不能保证是最佳的。我们介绍了一种解决此限制的新颖算法。它允许RL代理结合现有政策并直接确定任意新问题的最佳政策,而无需与环境进行任何进一步的互动。我们首先(在轻度假设下)表明,SFS解决的转移学习问题等同于学习在RL中优化多个目标的学习问题。然后,我们引入了基于SF的乐观线性支持算法的扩展,以学习一组SFS构成凸面覆盖范围集的策略。我们证明,该集合中的策略可以通过广义策略改进组合,以构建任何可表达的新任务的最佳行为,而无需任何其他培训样本。我们从经验上表明,在价值函数近似下,我们的方法在离散和连续域中优于最先进的竞争算法。
translated by 谷歌翻译
在学徒学习(AL)中,我们在没有获得成本函数的情况下给予马尔可夫决策过程(MDP)。相反,我们观察由根据某些政策执行的专家采样的轨迹。目标是找到一个与专家对某些预定义的成本函数的性能相匹配的策略。我们介绍了AL的在线变体(在线学徒学习; OAL),其中代理商预计与环境相互作用,在与环境互动的同时相互表现。我们表明,通过组合两名镜面血缘无遗憾的算法可以有效地解决了OAL问题:一个用于策略优化,另一个用于学习最坏情况的成本。通过采用乐观的探索,我们使用$ O(\ SQRT {k})$后悔派生算法,其中$ k $是与MDP的交互数量以及额外的线性错误术语,其取决于专家轨迹的数量可用的。重要的是,我们的算法避免了在每次迭代时求解MDP的需要,与先前的AL方法相比,更实用。最后,我们实现了我们算法的深层变体,该算法与Gail \ Cite {Ho2016Generative}共享了一些相似之处,但在鉴别者被替换为OAL问题的成本。我们的模拟表明OAL在高维控制问题中表现良好。
translated by 谷歌翻译
For many applications of reinforcement learning it can be more convenient to specify both a reward function and constraints, rather than trying to design behavior through the reward function. For example, systems that physically interact with or around humans should satisfy safety constraints. Recent advances in policy search algorithms (
translated by 谷歌翻译
具有很多玩家的非合作和合作游戏具有许多应用程序,但是当玩家数量增加时,通常仍然很棘手。由Lasry和Lions以及Huang,Caines和Malham \'E引入的,平均野外运动会(MFGS)依靠平均场外近似值,以使玩家数量可以成长为无穷大。解决这些游戏的传统方法通常依赖于以完全了解模型的了解来求解部分或随机微分方程。最近,增强学习(RL)似乎有望解决复杂问题。通过组合MFGS和RL,我们希望在人口规模和环境复杂性方面能够大规模解决游戏。在这项调查中,我们回顾了有关学习MFG中NASH均衡的最新文献。我们首先确定最常见的设置(静态,固定和进化)。然后,我们为经典迭代方法(基于最佳响应计算或策略评估)提供了一个通用框架,以确切的方式解决MFG。在这些算法和与马尔可夫决策过程的联系的基础上,我们解释了如何使用RL以无模型的方式学习MFG解决方案。最后,我们在基准问题上介绍了数值插图,并以某些视角得出结论。
translated by 谷歌翻译
我们研究了学习一系列良好政策的问题,使得当结合在一起时,他们可以解决各种各样的不良加强学习任务,没有或很少的新数据。具体而言,我们考虑广义政策评估和改进的框架,其中假设所有感兴趣任务的奖励被认为是固定的一组特征的线性组合。理论上,我们在理论上显示,在某些假设下,可以访问我们称之为一组独立策略的特定的各种策略,可以易于瞬间实现高级性能,这些任务通常比那些更复杂的所有可能的下游任务经过培训的代理人。基于这一理论分析,我们提出了一种简单的算法,可以迭代构建这套策略。除了经验验证我们的理论结果外,我们还将我们的方法与最近提出的各种政策集施工方法进行了比较,并表明其他人失败,我们的方法能够建立一种行为基础,使能够瞬间转移到所有可能的下游任务。我们还经验展示了访问一组独立策略,可以更好地引导在下游任务上的学习过程,其中新奖励功能不能被描述为特征的线性组合。最后,我们证明了这一政策组可以在逼真的终身加强学习环境中有用。
translated by 谷歌翻译
诸如最大熵正则化之类的政策正则化方法被广泛用于增强学习以提高学习政策的鲁棒性。在本文中,我们展示了这种鲁棒性是如何通过对冲的奖励功能扰动而产生的,奖励功能是从想象中的对手设定的限制设置中选择的。使用凸双重性,我们表征了KL和Alpha-Divergence正则化的一组强大的对抗奖励扰动集,其中包括香农和Tsallis熵正则定期为特殊情况。重要的是,可以在此强大集合中给出概括保证。我们提供了有关最坏的奖励扰动的详细讨论,并提供了直观的经验示例,以说明这种稳健性及其与概括的关系。最后,我们讨论我们的分析如何补充并扩展对对抗奖励鲁棒性和路径一致性最佳条件的先前结果。
translated by 谷歌翻译
在本文中,我们研究了加强学习问题的安全政策的学习。这是,我们的目标是控制我们不知道过渡概率的马尔可夫决策过程(MDP),但我们通过经验访问样品轨迹。我们将安全性定义为在操作时间内具有高概率的期望安全集中的代理。因此,我们考虑受限制的MDP,其中限制是概率。由于没有直接的方式来优化关于加强学习框架中的概率约束的政策,因此我们提出了对问题的遍历松弛。拟议的放松的优点是三倍。 (i)安全保障在集界任务的情况下保持,并且它们保持在一个给定的时间范围内,以继续进行任务。 (ii)如果政策的参数化足够丰富,则约束优化问题尽管其非凸起具有任意小的二元间隙。 (iii)可以使用标准策略梯度结果和随机近似工具容易地计算与安全学习问题相关的拉格朗日的梯度。利用这些优势,我们建立了原始双算法能够找到安全和最佳的政策。我们在连续域中的导航任务中测试所提出的方法。数值结果表明,我们的算法能够将策略动态调整到环境和所需的安全水平。
translated by 谷歌翻译
我们研究具有多个奖励价值函数的马尔可夫决策过程(MDP)的政策优化,应根据给定的标准共同优化,例如比例公平(平滑凹面标量),硬约束(约束MDP)和Max-Min Trade-离开。我们提出了一个改变锚定的正规自然政策梯度(ARNPG)框架,该框架可以系统地将良好表现的一阶方法中的思想纳入多目标MDP问题的策略优化算法的设计。从理论上讲,基于ARNPG框架的设计算法实现了$ \ tilde {o}(1/t)$全局收敛,并具有精确的梯度。从经验上讲,与某些现有的基于策略梯度的方法相比,ARNPG引导的算法在精确梯度和基于样本的场景中也表现出卓越的性能。
translated by 谷歌翻译
深度加强学习的最近成功的大部分是由正常化的政策优化(RPO)算法驱动,具有跨多个域的强大性能。在这家族的方法中,代理经过培训,以在惩罚某些引用或默认策略的行为中的偏差时最大化累积奖励。除了经验的成功外,还有一个强大的理论基础,了解应用于单一任务的RPO方法,与自然梯度,信任区域和变分方法有关。但是,对于多任务设置中的默认策略,对所需属性的正式理解有限,越来越重要的域作为现场转向培训更有能力的代理商。在这里,我们通过将默认策略的质量与其对优化的影响正式链接到其对其影响的效果方面,进行第一步才能填补这种差距。使用这些结果,我们将获得具有强大性能保证的多任务学习的原则性的RPO算法。
translated by 谷歌翻译
策略梯度方法适用于复杂的,不理解的,通过对参数化的策略进行随机梯度下降来控制问题。不幸的是,即使对于可以通过标准动态编程技术解决的简单控制问题,策略梯度算法也会面临非凸优化问题,并且被广泛理解为仅收敛到固定点。这项工作确定了结构属性 - 通过几个经典控制问题共享 - 确保策略梯度目标函数尽管是非凸面,但没有次优的固定点。当这些条件得到加强时,该目标满足了产生收敛速率的Polyak-lojasiewicz(梯度优势)条件。当其中一些条件放松时,我们还可以在任何固定点的最佳差距上提供界限。
translated by 谷歌翻译
值得信赖的强化学习算法应有能力解决挑战性的现实问题,包括{Robustly}处理不确定性,满足{安全}的限制以避免灾难性的失败,以及在部署过程中{prencepentiming}以避免灾难性的失败}。这项研究旨在概述这些可信赖的强化学习的主要观点,即考虑其在鲁棒性,安全性和概括性上的内在脆弱性。特别是,我们给出严格的表述,对相应的方法进行分类,并讨论每个观点的基准。此外,我们提供了一个前景部分,以刺激有希望的未来方向,并简要讨论考虑人类反馈的外部漏洞。我们希望这项调查可以在统一的框架中将单独的研究汇合在一起,并促进强化学习的可信度。
translated by 谷歌翻译
我们在专家和学习者之间的过渡动力学下研究了逆钢筋学习(IRL)问题。具体而言,我们考虑最大因果熵(MCE)IRL学习者模型,并根据专家和学习者的转换动态之间的$ \ ell_1 $ -disce提供学习者的性能下降的紧密上限。利用强大的RL文献的洞察力,我们提出了一种强大的MCE IRL算法,这是一种有效的方法来帮助这种不匹配。最后,我们经验展示了我们算法的稳定性能,而在有限和连续的MDP问题中的转换动态不匹配下的标准MCE IRL算法相比。
translated by 谷歌翻译
增强学习(RL)研究领域非常活跃,并具有重要的新贡献;特别是考虑到深RL(DRL)的新兴领域。但是,仍然需要解决许多科学和技术挑战,其中我们可以提及抽象行动的能力或在稀疏回报环境中探索环境的难以通过内在动机(IM)来解决的。我们建议通过基于信息理论的新分类法调查这些研究工作:我们在计算上重新审视了惊喜,新颖性和技能学习的概念。这使我们能够确定方法的优势和缺点,并展示当前的研究前景。我们的分析表明,新颖性和惊喜可以帮助建立可转移技能的层次结构,从而进一步抽象环境并使勘探过程更加健壮。
translated by 谷歌翻译
本文讨论了一种学习最佳Q功能的基本问题的新方法。在这种方法中,最佳Q函数被配制为源自经典Bellman最优方程的非线性拉格朗日函数的鞍点。该论文表明,尽管非线性具有非线性,但拉格朗日人仍然具有很强的双重性,这为Q-function学习的一般方法铺平了道路。作为演示,本文根据二元性理论开发了模仿学习算法,并将算法应用于最先进的机器翻译基准。然后,该论文转弯以证明有关拉格朗日鞍点的最佳性的对称性破坏现象,这证明了开发拉格朗日方法的很大程度上被忽视的方向。
translated by 谷歌翻译
Safe Reinforcement Learning can be defined as the process of learning policies that maximize the expectation of the return in problems in which it is important to ensure reasonable system performance and/or respect safety constraints during the learning and/or deployment processes. We categorize and analyze two approaches of Safe Reinforcement Learning. The first is based on the modification of the optimality criterion, the classic discounted finite/infinite horizon, with a safety factor. The second is based on the modification of the exploration process through the incorporation of external knowledge or the guidance of a risk metric. We use the proposed classification to survey the existing literature, as well as suggesting future directions for Safe Reinforcement Learning.
translated by 谷歌翻译
In this work we introduce reinforcement learning techniques for solving lexicographic multi-objective problems. These are problems that involve multiple reward signals, and where the goal is to learn a policy that maximises the first reward signal, and subject to this constraint also maximises the second reward signal, and so on. We present a family of both action-value and policy gradient algorithms that can be used to solve such problems, and prove that they converge to policies that are lexicographically optimal. We evaluate the scalability and performance of these algorithms empirically, demonstrating their practical applicability. As a more specific application, we show how our algorithms can be used to impose safety constraints on the behaviour of an agent, and compare their performance in this context with that of other constrained reinforcement learning algorithms.
translated by 谷歌翻译
在许多顺序决策问题(例如,机器人控制,游戏播放,顺序预测),人类或专家数据可用包含有关任务的有用信息。然而,来自少量专家数据的模仿学习(IL)可能在具有复杂动态的高维环境中具有挑战性。行为克隆是一种简单的方法,由于其简单的实现和稳定的收敛而被广泛使用,但不利用涉及环境动态的任何信息。由于对奖励和政策近似器或偏差,高方差梯度估计器,难以在实践中难以在实践中努力训练的许多现有方法。我们介绍了一种用于动态感知IL的方法,它通过学习单个Q函数来避免对抗训练,隐含地代表奖励和策略。在标准基准测试中,隐式学习的奖励显示与地面真实奖励的高正面相关性,说明我们的方法也可以用于逆钢筋学习(IRL)。我们的方法,逆软Q学习(IQ-Learn)获得了最先进的结果,在离线和在线模仿学习设置中,显着优于现有的现有方法,这些方法都在所需的环境交互和高维空间中的可扩展性中,通常超过3倍。
translated by 谷歌翻译