学徒学习是一个框架,代理商使用专家提供的示例轨迹来学习在环境中执行给定任务的策略。在现实世界中,在学习任务相同的情况下,在系统动力学不同的不同环境中,人们可能可以访问专家轨迹。对于这种情况,可以定义两种类型的学习目标。一个在一个特定的环境中,当学习策略在所有环境中都表现良好时,该政策在一个特定的环境中表现良好。为了以原则性的方式平衡这两个目标,我们的工作介绍了交叉学徒学习(CAL)框架。这包括一个优化问题,要求寻求每个环境的最佳策略,同时确保所有政策保持彼此之间。优化问题中的一个调谐参数可以促进此临近。随着调整参数的变化,我们得出问题优化者的属性。由于该问题是非convex,因此我们提供凸外近似。最后,我们在大风的环境环境中的导航任务中演示了我们框架的属性。
translated by 谷歌翻译
我们考虑了具有未知成本函数的大规模马尔可夫决策过程,并解决了从有限一套专家演示学习政策的问题。我们假设学习者不允许与专家互动,并且无法访问任何类型的加固信号。现有的逆钢筋学习方法具有强大的理论保证,但在计算上是昂贵的,而最先进的政策优化算法实现了重大的经验成功,但受到有限的理论理解受到阻碍。为了弥合理论与实践之间的差距,我们使用拉格朗日二元介绍了一种新的Bilinear鞍点框架。所提出的原始双视点允许我们通过随机凸优化的镜头开发出无模型可释放的算法。该方法享有实现,低内存要求和独立于州数量的计算和采样复杂性的优点。我们进一步提出了同等的无悔在线学习解释。
translated by 谷歌翻译
我们考虑大规模的马尔可夫决策过程(MDP),具有未知的成本函数,采用随机凸优化工具,以解决模仿学习的问题,包括从有限一套专家演示学习政策。我们采用学徒学习形式主义,这承担了假设真正的成本函数可以表示为一些已知功能的线性组合。现有的逆钢筋学习算法具有强烈的理论保证,但是计算得昂贵,因为它们使用强化学习或计划算法作为子程序。另一方面,最先进的政策梯度基于基于梯度的算法(如IM-Conifforce,IM-TRPO和Gail),在具有挑战性的基准任务中实现了重大的经验成功,但在理论方面并不顺利。强调绩效的非渐近保证,我们提出了一种方法,即通过将问题作为占用措施的单个凸优化问题的问题绕过学习成本函数的中间步骤,提出了一种从专家演示中绕过策略的方法。我们开发了一种计算高效的算法,并在提取的策略的质量上导出了高信心遗憾,利用随机凸优化的结果以及近似线性编程的近似有效,用于解决前向MDP。
translated by 谷歌翻译
我们在专家和学习者之间的过渡动力学下研究了逆钢筋学习(IRL)问题。具体而言,我们考虑最大因果熵(MCE)IRL学习者模型,并根据专家和学习者的转换动态之间的$ \ ell_1 $ -disce提供学习者的性能下降的紧密上限。利用强大的RL文献的洞察力,我们提出了一种强大的MCE IRL算法,这是一种有效的方法来帮助这种不匹配。最后,我们经验展示了我们算法的稳定性能,而在有限和连续的MDP问题中的转换动态不匹配下的标准MCE IRL算法相比。
translated by 谷歌翻译
我们研究如何构建一组可以组成的政策来解决一个加强学习任务的集合。每个任务都是不同的奖励函数,被定义为已知功能的线性组合。我们考虑一下我们呼吁改进政策的特定策略组合(SIPS):给定一套政策和一系列任务,SIP是前者的任何构成,其性能至少与其成分的表现相当好所有任务。我们专注于啜饮的最保守的实例化,Set-Max政策(SMPS),因此我们的分析扩展到任何SIP。这包括已知的策略组合运营商,如广义政策改进。我们的主要贡献是一种策略迭代算法,构建一组策略,以最大限度地提高所得SMP的最坏情况性能。该算法通过连续向集合添加新策略来工作。我们表明,生成的SMP的最坏情况性能严格地改善了每次迭代,并且算法仅在不存在导致改进性能的策略时停止。我们经验在网格世界上进行了验证评估了算法,也是来自DeepMind控制套件的一组域。我们确认了我们关于我们算法的单调性能的理论结果。有趣的是,我们还经验展示了算法计算的政策集是多样的,导致网格世界中的不同轨迹以及控制套件中的非常独特的运动技能。
translated by 谷歌翻译
计算NASH平衡策略是多方面强化学习中的一个核心问题,在理论和实践中都受到广泛关注。但是,到目前为止,可证明的保证金仅限于完全竞争性或合作的场景,或者在大多数实际应用中实现难以满足的强大假设。在这项工作中,我们通过调查Infinite-Horizo​​n \ Emph {对抗性团队Markov Games},这是一场自然而充分动机的游戏,其中一组相同兴奋的玩家 - 在没有任何明确的情况下,这是一个自然而有动机的游戏,这是一场自然而有动机的游戏,而偏离了先前的结果。协调或交流 - 正在与对抗者竞争。这种设置允许对零和马尔可夫潜在游戏进行统一处理,并作为模拟更现实的战略互动的一步,这些互动具有竞争性和合作利益。我们的主要贡献是第一种计算固定$ \ epsilon $ - Approximate Nash Equilibria在对抗性团队马尔可夫游戏中具有计算复杂性的算法,在游戏的所有自然参数中都是多项式的,以及$ 1/\ epsilon $。拟议的算法特别自然和实用,它基于为团队中的每个球员执行独立的政策梯度步骤,并与对手侧面的最佳反应同时;反过来,通过解决精心构造的线性程序来获得对手的政策。我们的分析利用非标准技术来建立具有非convex约束的非线性程序的KKT最佳条件,从而导致对诱导的Lagrange乘数的自然解释。在此过程中,我们大大扩展了冯·斯坦格尔(Von Stengel)和科勒(GEB`97)引起的对抗(正常形式)团队游戏中最佳政策的重要特征。
translated by 谷歌翻译
本文分析了双模的彼此优化随机算法框架。 Bilevel优化是一类表现出两级结构的问题,其目标是使具有变量的外目标函数最小化,该变量被限制为对(内部)优化问题的最佳解决方案。我们考虑内部问题的情况是不受约束的并且强烈凸起的情况,而外部问题受到约束并具有平滑的目标函数。我们提出了一种用于解决如此偏纤维问题的两次时间尺度随机近似(TTSA)算法。在算法中,使用较大步长的随机梯度更新用于内部问题,而具有较小步长的投影随机梯度更新用于外部问题。我们在各种设置下分析了TTSA算法的收敛速率:当外部问题强烈凸起(RESP。〜弱凸)时,TTSA算法查找$ \ MATHCAL {O}(k ^ { - 2/3})$ -Optimal(resp。〜$ \ mathcal {o}(k ^ {-2/5})$ - 静止)解决方案,其中$ k $是总迭代号。作为一个应用程序,我们表明,两个时间尺度的自然演员 - 批评批评近端策略优化算法可以被视为我们的TTSA框架的特殊情况。重要的是,与全球最优政策相比,自然演员批评算法显示以预期折扣奖励的差距,以$ \ mathcal {o}(k ^ { - 1/4})的速率收敛。
translated by 谷歌翻译
最近已证明,平均场控制(MFC)是可扩展的工具,可近似解决大规模的多代理增强学习(MARL)问题。但是,这些研究通常仅限于无约束的累积奖励最大化框架。在本文中,我们表明,即使在存在约束的情况下,也可以使用MFC方法近似MARL问题。具体来说,我们证明,一个$ n $ agent的约束MARL问题,以及每个尺寸的尺寸$ | \ Mathcal {x} | $和$ | \ Mathcal {u} | $的状态和操作空间,可以通过与错误相关的约束MFC问题近似,$ e \ triangleq \ Mathcal {o} \ left([\ sqrt {| \ Mathcal {| \ Mathcal {x} |} |}+\ sqrt {| ]/\ sqrt {n} \ right)$。在奖励,成本和状态过渡功能独立于人口的行动分布的特殊情况下,我们证明该错误可以将错误提高到$ e = \ nathcal {o}(\ sqrt {| | \ Mathcal {x x x } |}/\ sqrt {n})$。另外,我们提供了一种基于自然策略梯度的算法,并证明它可以在$ \ Mathcal {o}(e)$的错误中解决受约束的MARL问题,并具有$ \ MATHCAL {O}的样本复杂性(E^{ - e^{ - 6})$。
translated by 谷歌翻译
我们研究奖励设计策略,用于激励加强学习代理,从一系列可接受的政策中采用政策。奖励设计师的目标是经济高效地修改底层奖励功能,同时确保在新奖励功能下的任何大约最佳的确定性政策是可允许的,并且在原始奖励功能下执行良好。这个问题可以被视为最佳奖励中毒攻击问题的双重问题:而不是强制代理商采用特定的政策,而奖励设计师则激励一个代理人以避免采取某些州不可受理的行动。也许令人惊讶的是,与最佳奖励中毒攻击的问题相比,我们首先表明可允许的政策教学的奖励设计问题是在计算上具有挑战性的,并且难以找到近似最佳的奖励修改。然后,我们通过制定最佳解决方案的代理问题,其最佳解决方案近似于我们的环境中奖励设计问题的最佳解决方案,但更适用于优化技术和分析。对于此替代问题,我们呈现了在最佳解决方案的值上提供限制的表征结果。最后,我们设计了一个本地搜索算法来解决代理问题,并使用基于模拟的实验展示其实用程序。
translated by 谷歌翻译
强化学习(RL)旨在在给定环境中从奖励功能中训练代理商,但逆增强学习(IRL)试图从观察专家的行为中恢复奖励功能。众所周知,总的来说,各种奖励功能会导致相同的最佳政策,因此,IRL定义不明。但是,(Cao等,2021)表明,如果我们观察到两个或多个具有不同折现因子或在不同环境中起作用的专家,则可以在某些条件下确定奖励功能,直至常数。这项工作首先根据等级条件显示了表格MDP的多位专家的等效可识别性声明,该声明易于验证,也被证明是必要的。然后,我们将结果扩展到各种不同的方案,即,在奖励函数可以表示为给定特征的线性组合,使其更容易解释,或者当我们可以访问近似过渡矩阵时,我们会表征奖励可识别性。即使奖励无法识别,我们也提供了特征的条件,当给定环境中的多个专家的数据允许在新环境中概括和训练最佳代理。在各种数值实验中,我们对奖励可识别性和概括性的理论结果得到了验证。
translated by 谷歌翻译
策略梯度方法适用于复杂的,不理解的,通过对参数化的策略进行随机梯度下降来控制问题。不幸的是,即使对于可以通过标准动态编程技术解决的简单控制问题,策略梯度算法也会面临非凸优化问题,并且被广泛理解为仅收敛到固定点。这项工作确定了结构属性 - 通过几个经典控制问题共享 - 确保策略梯度目标函数尽管是非凸面,但没有次优的固定点。当这些条件得到加强时,该目标满足了产生收敛速率的Polyak-lojasiewicz(梯度优势)条件。当其中一些条件放松时,我们还可以在任何固定点的最佳差距上提供界限。
translated by 谷歌翻译
Offline reinforcement learning (RL) concerns pursuing an optimal policy for sequential decision-making from a pre-collected dataset, without further interaction with the environment. Recent theoretical progress has focused on developing sample-efficient offline RL algorithms with various relaxed assumptions on data coverage and function approximators, especially to handle the case with excessively large state-action spaces. Among them, the framework based on the linear-programming (LP) reformulation of Markov decision processes has shown promise: it enables sample-efficient offline RL with function approximation, under only partial data coverage and realizability assumptions on the function classes, with favorable computational tractability. In this work, we revisit the LP framework for offline RL, and advance the existing results in several aspects, relaxing certain assumptions and achieving optimal statistical rates in terms of sample size. Our key enabler is to introduce proper constraints in the reformulation, instead of using any regularization as in the literature, sometimes also with careful choices of the function classes and initial state distributions. We hope our insights further advocate the study of the LP framework, as well as the induced primal-dual minimax optimization, in offline RL.
translated by 谷歌翻译
In many sequential decision-making problems one is interested in minimizing an expected cumulative cost while taking into account risk, i.e., increased awareness of events of small probability and high consequences. Accordingly, the objective of this paper is to present efficient reinforcement learning algorithms for risk-constrained Markov decision processes (MDPs), where risk is represented via a chance constraint or a constraint on the conditional value-at-risk (CVaR) of the cumulative cost. We collectively refer to such problems as percentile risk-constrained MDPs. Specifically, we first derive a formula for computing the gradient of the Lagrangian function for percentile riskconstrained MDPs. Then, we devise policy gradient and actor-critic algorithms that (1) estimate such gradient, (2) update the policy in the descent direction, and (3) update the Lagrange multiplier in the ascent direction. For these algorithms we prove convergence to locally optimal policies. Finally, we demonstrate the effectiveness of our algorithms in an optimal stopping problem and an online marketing application.
translated by 谷歌翻译
在本文中,我们研究了加强学习问题的安全政策的学习。这是,我们的目标是控制我们不知道过渡概率的马尔可夫决策过程(MDP),但我们通过经验访问样品轨迹。我们将安全性定义为在操作时间内具有高概率的期望安全集中的代理。因此,我们考虑受限制的MDP,其中限制是概率。由于没有直接的方式来优化关于加强学习框架中的概率约束的政策,因此我们提出了对问题的遍历松弛。拟议的放松的优点是三倍。 (i)安全保障在集界任务的情况下保持,并且它们保持在一个给定的时间范围内,以继续进行任务。 (ii)如果政策的参数化足够丰富,则约束优化问题尽管其非凸起具有任意小的二元间隙。 (iii)可以使用标准策略梯度结果和随机近似工具容易地计算与安全学习问题相关的拉格朗日的梯度。利用这些优势,我们建立了原始双算法能够找到安全和最佳的政策。我们在连续域中的导航任务中测试所提出的方法。数值结果表明,我们的算法能够将策略动态调整到环境和所需的安全水平。
translated by 谷歌翻译
在钢筋学习(RL)中,代理必须探索最初未知的环境,以便学习期望的行为。当RL代理部署在现实世界环境中时,安全性是主要关注的。受约束的马尔可夫决策过程(CMDPS)可以提供长期的安全约束;但是,该代理人可能会违反探索其环境的制约因素。本文提出了一种称为显式探索,漏洞探索或转义($ e ^ {4} $)的基于模型的RL算法,它将显式探索或利用($ e ^ {3} $)算法扩展到强大的CMDP设置。 $ e ^ 4 $明确地分离开发,探索和逃脱CMDP,允许针对已知状态的政策改进的有针对性的政策,发现未知状态,以及安全返回到已知状态。 $ e ^ 4 $强制优化了从一组CMDP模型的最坏情况CMDP上的这些策略,该模型符合部署环境的经验观察。理论结果表明,在整个学习过程中满足安全限制的情况下,在多项式时间中找到近最优的约束政策。我们讨论了稳健约束的离线优化算法,以及如何基于经验推理和先验知识来结合未知状态过渡动态的不确定性。
translated by 谷歌翻译
In inverse reinforcement learning (IRL), a learning agent infers a reward function encoding the underlying task using demonstrations from experts. However, many existing IRL techniques make the often unrealistic assumption that the agent has access to full information about the environment. We remove this assumption by developing an algorithm for IRL in partially observable Markov decision processes (POMDPs). We address two limitations of existing IRL techniques. First, they require an excessive amount of data due to the information asymmetry between the expert and the learner. Second, most of these IRL techniques require solving the computationally intractable forward problem -- computing an optimal policy given a reward function -- in POMDPs. The developed algorithm reduces the information asymmetry while increasing the data efficiency by incorporating task specifications expressed in temporal logic into IRL. Such specifications may be interpreted as side information available to the learner a priori in addition to the demonstrations. Further, the algorithm avoids a common source of algorithmic complexity by building on causal entropy as the measure of the likelihood of the demonstrations as opposed to entropy. Nevertheless, the resulting problem is nonconvex due to the so-called forward problem. We solve the intrinsic nonconvexity of the forward problem in a scalable manner through a sequential linear programming scheme that guarantees to converge to a locally optimal policy. In a series of examples, including experiments in a high-fidelity Unity simulator, we demonstrate that even with a limited amount of data and POMDPs with tens of thousands of states, our algorithm learns reward functions and policies that satisfy the task while inducing similar behavior to the expert by leveraging the provided side information.
translated by 谷歌翻译
我们研究了逆钢筋学习的问题(IRL),学习代理使用专家演示恢复奖励功能。大多数现有的IRL技术使代理商可以访问有关环境的完整信息,这使得经常不切实际的假设。我们通过在部分可观察到的马尔可夫决策过程(POMDPS)中开发IRL算法来消除此假设。该算法解决了现有技术的若干限制,这些技术不会考虑专家和学习者之间的信息不对称。首先,它采用因果熵作为专家演示的可能性,而不是在大多数现有的IRL技术中熵,避免了算法复杂性的共同来源。其次,它包含以时间逻辑表示的任务规范。除了演示之外,这些规范可以被解释为对学习者可用的侧面信息,并且可以减少信息不对称。然而,由于所谓的前向问题的内在非凸起,即计算最佳政策,在POMDPS中计算最佳政策,所得到的制剂仍然是非凸的。通过顺序凸编程来解决这种非凸起,并介绍几个扩展以以可扩展的方式解决前向问题。这种可扩展性允许计算策略,以牺牲添加的计算成本为代价也越优于无记忆策略。我们证明,即使具有严重限制的数据,算法也会了解满足任务的奖励函数和策略,并通过利用侧面信息并将内存结合到策略中来对专家引起类似的行为。
translated by 谷歌翻译
我们考虑解决强大的马尔可夫决策过程(MDP)的问题,该过程涉及一组折扣,有限状态,有限的动作空间MDP,具有不确定的过渡核。计划的目的是找到一项强大的政策,以优化针对过渡不确定性的最坏情况值,从而将标准MDP计划作为特殊情况。对于$(\ Mathbf {s},\ Mathbf {a})$ - 矩形不确定性集,我们开发了一种基于策略的一阶方法,即稳健的策略镜像下降(RPMD),并建立$ \ Mathcal {o }(\ log(1/\ epsilon))$和$ \ Mathcal {o}(1/\ epsilon)$迭代复杂性,用于查找$ \ epsilon $ -optimal策略,并带有两个增加的步骤式方案。 RPMD的先前收敛适用于任何Bregman差异,前提是政策空间在以初始政策为中心时通过差异测量的半径限制了半径。此外,当布雷格曼的分歧对应于平方的欧几里得距离时,我们建立了一个$ \ mathcal {o}(\ max \ {1/\ epsilon,1/(\ eta \ eTa \ epsilon^2)\ epsilon^2)\任何常量的步进$ \ eta $。对于Bregman差异的一般类别,如果不确定性集满足相对强的凸度,则还为RPMD建立了类似的复杂性。当仅通过与名义环境的在线互动获得一阶信息时,我们进一步开发了一个名为SRPMD的随机变体。对于Bregman General Divergences,我们建立了一个$ \ MATHCAL {O}(1/\ Epsilon^2)$和$ \ Mathcal {O}(1/\ Epsilon^3)$样品复杂性,具有两个增加的静态方案。对于Euclidean Bregman Divergence,我们建立了一个$ \ MATHCAL {O}(1/\ Epsilon^3)$样本复杂性,并具有恒定的步骤。据我们所知,所有上述结果似乎是应用于强大的MDP问题的基于策略的一阶方法的新事物。
translated by 谷歌翻译
在许多顺序决策问题(例如,机器人控制,游戏播放,顺序预测),人类或专家数据可用包含有关任务的有用信息。然而,来自少量专家数据的模仿学习(IL)可能在具有复杂动态的高维环境中具有挑战性。行为克隆是一种简单的方法,由于其简单的实现和稳定的收敛而被广泛使用,但不利用涉及环境动态的任何信息。由于对奖励和政策近似器或偏差,高方差梯度估计器,难以在实践中难以在实践中努力训练的许多现有方法。我们介绍了一种用于动态感知IL的方法,它通过学习单个Q函数来避免对抗训练,隐含地代表奖励和策略。在标准基准测试中,隐式学习的奖励显示与地面真实奖励的高正面相关性,说明我们的方法也可以用于逆钢筋学习(IRL)。我们的方法,逆软Q学习(IQ-Learn)获得了最先进的结果,在离线和在线模仿学习设置中,显着优于现有的现有方法,这些方法都在所需的环境交互和高维空间中的可扩展性中,通常超过3倍。
translated by 谷歌翻译
我们介绍了表演性强化学习的框架,学习者选择的政策会影响环境的基本奖励和过渡动态。遵循有关表演预测的最新文献〜\ cite {perdomo等。 Al。,2020},我们介绍了性能稳定政策的概念。然后,我们考虑了强化学习问题的正则版本,并表明,在合理的假设对过渡动态的合理假设下,反复优化此目标将其收敛到性能稳定的策略。我们的证明利用了强化学习问题的双重观点,并且可能在分析其他算法与决策依赖性环境的融合方面具有独立的兴趣。然后,我们将结果扩展到学习者仅执行梯度上升步骤而不是完全优化目标的设置,以及学习者可以从变化的环境中访问有限数量的轨迹的设置。对于这两种设置,我们都利用表演性增强学习的双重表述,并建立与稳定解决方案的融合。最后,通过对网格世界环境的广泛实验,我们证明了收敛对各种参数的依赖性,例如正则化,平滑度和样品数量。
translated by 谷歌翻译