强大的增强学习(RL)考虑了在一组可能的环境参数值中最坏情况下表现良好的学习政策的问题。在现实世界环境中,选择可靠RL的可能值集可能是一项艰巨的任务。当指定该集合太狭窄时,代理将容易受到不称职的合理参数值的影响。如果规定过于广泛,则代理商将太谨慎。在本文中,我们提出了可行的对抗性鲁棒RL(FARR),这是一种自动确定环境参数值集的方法。 Farr隐式将可行的参数值定义为代理可以在足够的培训资源的情况下获得基准奖励的参数值。通过将该问题作为两人零和游戏的配方,Farr共同学习了对参数值的对抗分布,并具有可行的支持,并且在此可行参数集中进行了强大的策略。使用PSRO算法在这款FARR游戏中找到近似的NASH平衡,我们表明,接受FARR训练的代理人对可行的对抗性参数选择比现有的minimax,domain randanmization,域名和遗憾的目标更强大控制环境。
translated by 谷歌翻译
在竞争激烈的两种环境中,基于\ emph {double oracle(do)}算法的深度强化学习(RL)方法,例如\ emph {policy space响应oracles(psro)}和\ emph {任何时间psro(apsro)},迭代地将RL最佳响应策略添加到人群中。最终,这些人口策略的最佳混合物将近似于NASH平衡。但是,这些方法可能需要在收敛之前添加所有确定性策略。在这项工作中,我们介绍了\ emph {selfplay psro(sp-psro)},这种方法可在每次迭代中的种群中添加大致最佳的随机策略。SP-PSRO并不仅对对手的最少可剥削人口混合物添加确定性的最佳反应,而是学习了大致最佳的随机政策,并将其添加到人群中。结果,SPSRO从经验上倾向于比APSRO快得多,而且在许多游戏中,仅在几次迭代中收敛。
translated by 谷歌翻译
Deep neural networks coupled with fast simulation and improved computation have led to recent successes in the field of reinforcement learning (RL). However, most current RL-based approaches fail to generalize since: (a) the gap between simulation and real world is so large that policy-learning approaches fail to transfer; (b) even if policy learning is done in real world, the data scarcity leads to failed generalization from training to test scenarios (e.g., due to different friction or object masses). Inspired from H ∞ control methods, we note that both modeling errors and differences in training and test scenarios can be viewed as extra forces/disturbances in the system. This paper proposes the idea of robust adversarial reinforcement learning (RARL), where we train an agent to operate in the presence of a destabilizing adversary that applies disturbance forces to the system. The jointly trained adversary is reinforced -that is, it learns an optimal destabilization policy. We formulate the policy learning as a zero-sum, minimax objective function. Extensive experiments in multiple environments (InvertedPendulum, HalfCheetah, Swimmer, Hopper and Walker2d) conclusively demonstrate that our method (a) improves training stability; (b) is robust to differences in training/test conditions; and c) outperform the baseline even in the absence of the adversary.
translated by 谷歌翻译
We study the problem of training a principal in a multi-agent general-sum game using reinforcement learning (RL). Learning a robust principal policy requires anticipating the worst possible strategic responses of other agents, which is generally NP-hard. However, we show that no-regret dynamics can identify these worst-case responses in poly-time in smooth games. We propose a framework that uses this policy evaluation method for efficiently learning a robust principal policy using RL. This framework can be extended to provide robustness to boundedly rational agents too. Our motivating application is automated mechanism design: we empirically demonstrate our framework learns robust mechanisms in both matrix games and complex spatiotemporal games. In particular, we learn a dynamic tax policy that improves the welfare of a simulated trade-and-barter economy by 15%, even when facing previously unseen boundedly rational RL taxpayers.
translated by 谷歌翻译
强大的强化学习(RL)着重于改善模型错误或对抗性攻击下的性能,这有助于RL代理的现实部署。强大的对抗强化学习(RARL)是RL最受欢迎的框架之一。但是,大多数现有的文献模型都以NASH均衡为解决方案概念的零和同时游戏,可以忽略RL部署的顺序性质,产生过度保守的代理,并引起训练不稳定。在本文中,我们介绍了一种新颖的RL RL的新型分层配方,即一种名为RRL -Stack的通用stackelberg游戏模型 - 以形式化顺序性质,并为健壮的训练提供了额外的灵活性。我们开发了Stackelberg策略梯度算法来解决RRL堆栈,通过考虑对手的反应来利用Stackelberg学习动态。我们的方法产生了有挑战性但可解决的对抗环境,这些环境使RL代理的强大学习受益。我们的算法表明,在单权机器人控制和多机科公路合并任务中,针对不同测试条件的训练稳定性和鲁棒性。
translated by 谷歌翻译
事实证明,加固学习(RL)的自适应课程有效地制定了稳健的火车和测试环境之间的差异。最近,无监督的环境设计(UED)框架通用RL课程以生成整个环境的序列,从而带来了具有强大的Minimax遗憾属性的新方法。在问题上,在部分观察或随机设置中,最佳策略可能取决于预期部署设置中环境的基本真相分布,而课程学习一定会改变培训分布。我们将这种现象形式化为课程诱导的协变量转移(CICS),并描述了其在核心参数中的发生如何导致次优政策。直接从基本真相分布中采样这些参数可以避免问题,但阻碍了课程学习。我们提出了Samplr,这是一种Minimax遗憾的方法,即使由于CICS偏向基础培训数据,它也优化了基础真相函数。我们证明并验证了具有挑战性的领域,我们的方法在基础上的分布下保留了最佳性,同时促进了整个环境环境的鲁棒性。
translated by 谷歌翻译
我们在\ textit {躁动不安的多臂土匪}(rmabs)中引入了鲁棒性,这是一个流行的模型,用于在独立随机过程(臂)之间进行约束资源分配。几乎所有RMAB技术都假设随机动力学是精确的。但是,在许多实际设置中,动态是用显着的\ emph {不确定性}估算的,例如,通过历史数据,如果被忽略,这可能会导致不良结果。为了解决这个问题,我们开发了一种算法来计算Minimax遗憾 - RMAB的强大政策。我们的方法使用双oracle框架(\ textit {agent}和\ textit {nature}),通常用于单过程强大的计划,但需要大量的新技术来适应RMAB的组合性质。具体而言,我们设计了深入的强化学习(RL)算法DDLPO,该算法通过学习辅助机构“ $ \ lambda $ -network”来应对组合挑战,并与每手臂的策略网络串联,大大降低了样本复杂性,并确保了融合。普遍关注的DDLPO实现了我们的奖励最大化代理Oracle。然后,我们通过将其作为策略优化器和对抗性性质之间的多代理RL问题提出来解决具有挑战性的遗憾最大化自然甲骨文,这是一个非平稳的RL挑战。这种表述具有普遍的兴趣 - 我们通过与共同的评论家创建DDLPO的多代理扩展来解决RMAB。我们显示我们的方法在三个实验域中效果很好。
translated by 谷歌翻译
强化学习(RL)的概括对于RL算法的实际部署至关重要。提出了各种方案来解决概括问题,包括转移学习,多任务学习和元学习,以及健壮和对抗性的强化学习。但是,各种方案都没有统一的表述,也没有跨不同方案的方法的全面比较。在这项工作中,我们提出了一个游戏理论框架,用于加强学习的概括,名为Girl,在该框架中,RL代理在一组任务中对对手进行了训练,对手可以在给定阈值内对任务进行分配。使用不同的配置,女孩可以减少上述各种方案。为了解决女孩,我们将广泛使用的方法改编在游戏理论中,策略空间响应Oracle(PSRO)进行以下三个重要修改:i)我们使用模型 - 静脉元学习(MAML)作为最佳反应甲骨文,II)我们提出了一个经过修改的投影复制的动力学,即R-PRD,该动力学确保了对手的计算元策略在阈值中,并且iii)我们还为测试过程中的多个策略进行了几次学习的协议。关于穆约科科环境的广泛实验表明,我们提出的方法可以胜过现有的基线,例如MAML。
translated by 谷歌翻译
Various types of Multi-Agent Reinforcement Learning (MARL) methods have been developed, assuming that agents' policies are based on true states. Recent works have improved the robustness of MARL under uncertainties from the reward, transition probability, or other partners' policies. However, in real-world multi-agent systems, state estimations may be perturbed by sensor measurement noise or even adversaries. Agents' policies trained with only true state information will deviate from optimal solutions when facing adversarial state perturbations during execution. MARL under adversarial state perturbations has limited study. Hence, in this work, we propose a State-Adversarial Markov Game (SAMG) and make the first attempt to study the fundamental properties of MARL under state uncertainties. We prove that the optimal agent policy and the robust Nash equilibrium do not always exist for an SAMG. Instead, we define the solution concept, robust agent policy, of the proposed SAMG under adversarial state perturbations, where agents want to maximize the worst-case expected state value. We then design a gradient descent ascent-based robust MARL algorithm to learn the robust policies for the MARL agents. Our experiments show that adversarial state perturbations decrease agents' rewards for several baselines from the existing literature, while our algorithm outperforms baselines with state perturbations and significantly improves the robustness of the MARL policies under state uncertainties.
translated by 谷歌翻译
值得信赖的强化学习算法应有能力解决挑战性的现实问题,包括{Robustly}处理不确定性,满足{安全}的限制以避免灾难性的失败,以及在部署过程中{prencepentiming}以避免灾难性的失败}。这项研究旨在概述这些可信赖的强化学习的主要观点,即考虑其在鲁棒性,安全性和概括性上的内在脆弱性。特别是,我们给出严格的表述,对相应的方法进行分类,并讨论每个观点的基准。此外,我们提供了一个前景部分,以刺激有希望的未来方向,并简要讨论考虑人类反馈的外部漏洞。我们希望这项调查可以在统一的框架中将单独的研究汇合在一起,并促进强化学习的可信度。
translated by 谷歌翻译
离线增强学习(离线RL)是一个新兴领域,由于其能够从早期收集的数据集中学习行为,该领域最近开始在各个应用领域中引起关注。当与环境进一步交互(计算或其他方式),不安全或完全不可行时,必须使用记录数据。离线RL被证明非常成功,为解决以前棘手的现实世界问题铺平了道路,我们旨在将此范式推广到多代理或多人游戏设置。由于缺乏标准化数据集和有意义的基准,因此在这一领域进行的研究很少,因为进展受到阻碍。在这项工作中,我们将术语“离线平衡发现(OEF)”创造,以描述该区域并构建多个数据集,这些数据集由使用多种既定方法在各种游戏中收集的策略组成。我们还提出了一种基准方法 - 行为克隆和基于模型的算法的合并。我们的两种基于模型的算法 - OEF-PSRO和OEF-CFR - 是在离线学习的背景下,广泛使用的平衡发现算法深入CFR和PSRO的适应。在经验部分中,我们评估了构造数据集上基准算法的性能。我们希望我们的努力可以帮助加速大规模平衡发现的研究。数据集和代码可在https://github.com/securitygames/oef上获得。
translated by 谷歌翻译
实际经济体可以被视为一种顺序不完美信息游戏,具有许多异质,互动的各种代理类型的战略代理,例如消费者,公司和政府。动态一般均衡模型是在此类系统中建模经济活动,交互和结果的普通经济工具。然而,当所有代理商是战略和互动时,现有的分析和计算方法努力寻找明确的均衡,而联合学习是不稳定的并且具有挑战性。在其他人中,一个重要的原因是,一个经济代理人的行动可能会改变另一名代理人的奖励职能,例如,当公司更改价格或政府更改税收时,消费者的消费者的消费收入变化。我们表明,多代理深度加强学习(RL)可以发现稳定的解决方案,即通过使用结构的学习课程和高效的GPU,在经济模拟中,在经济仿真中,在经济模拟中,可以发现普遍存器类型的稳定解决方案。仿真和培训。概念上,我们的方法更加灵活,不需要不切实际的假设,例如市场清算,通常用于分析途径。我们的GPU实施使得能够在合理的时间范围内具有大量代理的经济体,例如,在一天内完成培训。我们展示了我们在实际商业周期模型中的方法,这是一个代表性的DGE模型系列,100名工人消费者,10家公司和政府税收和重新分配。我们通过近似最佳响应分析验证了学习的Meta-Game epsilon-Nash均衡,表明RL政策与经济直觉保持一致,我们的方法是建设性的,例如,通过明确地学习Meta-Game epsilon-Nash ePhilia的频谱打开RBC型号。
translated by 谷歌翻译
Researchers have demonstrated that neural networks are vulnerable to adversarial examples and subtle environment changes, both of which one can view as a form of distribution shift. To humans, the resulting errors can look like blunders, eroding trust in these agents. In prior games research, agent evaluation often focused on the in-practice game outcomes. While valuable, such evaluation typically fails to evaluate robustness to worst-case outcomes. Prior research in computer poker has examined how to assess such worst-case performance, both exactly and approximately. Unfortunately, exact computation is infeasible with larger domains, and existing approximations rely on poker-specific knowledge. We introduce ISMCTS-BR, a scalable search-based deep reinforcement learning algorithm for learning a best response to an agent, thereby approximating worst-case performance. We demonstrate the technique in several two-player zero-sum games against a variety of agents, including several AlphaZero-based agents.
translated by 谷歌翻译
在各种策略中,学会对任何混合物进行最佳作用是竞争游戏中重要的实践兴趣。在本文中,我们提出了同时满足两个Desiderata的单纯形式:i)学习以单个条件网络为代表的战略性不同的基础政策;ii)使用同一网络,通过基础策略的单纯形式学习最佳反应。我们表明,由此产生的条件策略有效地包含了有关对手的先前信息,从而在具有可拖动最佳响应的游戏中几乎可以针对任意混合策略的最佳回报。我们验证此类政策在不确定性下表现出色,并在测试时使用这种灵活性提供了见解。最后,我们提供的证据表明,对任何混合政策学习最佳响应是战略探索的有效辅助任务,这本身可以导致更多的性能人群。
translated by 谷歌翻译
在线电子商务平台上的算法定价引起了人们对默认勾结的关注,在这种情况下,强化学习算法学会以分散的方式设定合格价格,而无非是利润反馈。这就提出了一个问题,即是否可以通过设计合适的“购买盒子”来防止合格定价,即通过设计管理电子商务网站要素的规则,这些规则将特定产品和价格推向消费者。在本文中,我们证明了平台也可以使用增强学习(RL)来学习有效防止RL卖家勾结的框规则。为此,我们采用了Stackelberg POMDP的方法,并在学习强大的规则方面取得了成功,这些规则继续提供高昂的消费者福利,以及采用不同行为模型或对商品的分发费用的卖家。
translated by 谷歌翻译
我们研究多个代理商在多目标环境的同时学习的问题。具体来说,我们考虑两种药剂重复播放一个多目标的正常形式的游戏。在这样的游戏,从联合行动所产生的收益都向量值。以基于效用的方法,我们假设效用函数存在映射向量标公用事业和考虑旨在最大限度地提高预期收益载体的效用代理。作为代理商不一定知道他们的对手的效用函数或策略,他们必须学会互动的最佳策略对方。为了帮助代理商在适当的解决办法到达,我们介绍四种新型偏好通信协议双方的合作以及自身利益的沟通。每一种方法描述了一个代理在他们的行动以及如何另一代理响应通信偏好的特定协议。这些协议是一组对不沟通基线代理5个标杆游戏随后对其进行评估。我们发现,偏好通信可以彻底改变学习的过程,并导致其没有在此设置先前观测环纳什均衡的出现。另外,还要在那里代理商必须学会当通信的通信方案。对于与纳什均衡游戏的代理,我们发现通信可以是有益的,但很难知道什么时候剂有不同的最佳平衡。如果不是这种情况,代理变得冷漠通信。在游戏没有纳什均衡,我们的结果表明,整个学习率的差异。当使用更快的学习者,我们观察到明确的沟通,在50%左右的时间变得越来越普遍,因为它可以帮助他们在学习的妥协联合政策。较慢的学生保留这种模式在较小的程度,但显示增加的冷漠。
translated by 谷歌翻译
本文提出了用于学习两人零和马尔可夫游戏的小说,端到端的深钢筋学习算法。我们的目标是找到NASH平衡政策,这些策略不受对抗对手的剥削。本文与以前在广泛形式的游戏中找到NASH平衡的努力不同,这些游戏具有树结构的过渡动态和离散的状态空间,本文着重于具有一般过渡动态和连续状态空间的马尔可夫游戏。我们提出了(1)NASH DQN算法,该算法将DQN与nash finding subroutine集成在一起的联合价值函数; (2)NASH DQN利用算法,该算法还采用了指导代理商探索的剥削者。我们的算法是理论算法的实用变体,这些变体可以保证在基本表格设置中融合到NASH平衡。对表格示例和两个玩家Atari游戏的实验评估证明了针对对抗对手的拟议算法的鲁棒性,以及对现有方法的优势性能。
translated by 谷歌翻译
在各种零和游戏中,自我播放的增强学习已经达到了最先进的,通常是超人的表现。然而,先前的工作发现,反对常规对手的政策能够在灾难性的情况下对对抗性政策失败:一个对受害者明确训练的对手。使用对抗训练的先前防御能够使受害者对特定的对手有牢固的态度,但受害者仍然容易受到新的对手。我们猜想这种限制是由于训练过程中看到的对手多样性不足。我们建议使用基于人口的训练的辩护,以使受害者对抗各种各样的对手。我们在两个低维环境中评估了这种防御对新对手的鲁棒性。通过攻击者训练时间步长以利用受害者的数量来衡量,我们的防守对对抗者提高了对手的鲁棒性。此外,我们表明鲁棒性与对手人群的大小相关。
translated by 谷歌翻译
深度加强学习(RL)使得可以使用神经网络作为功能近似器来解决复杂的机器人问题。然而,在从一个环境转移到另一个环境时,在普通环境中培训的政策在泛化方面受到影响。在这项工作中,我们使用强大的马尔可夫决策过程(RMDP)来训练无人机控制策略,这将思想与强大的控制和RL相结合。它选择了悲观优化,以处理从一个环境到另一个环境的策略转移之间的潜在间隙。训练有素的控制策略是关于四转位位置控制的任务。 RL代理商在Mujoco模拟器中培训。在测试期间,使用不同的环境参数(培训期间看不见)来验证训练策略的稳健性,以从一个环境转移到另一个环境。强大的政策在这些环境中表现出标准代理,表明增加的鲁棒性增加了一般性,并且可以适应非静止环境。代码:https://github.com/adipandas/gym_multirotor
translated by 谷歌翻译
深度加强学习(RL)的最新进展导致许多2人零和游戏中的相当大的进展,如去,扑克和星际争霸。这种游戏的纯粹对抗性质允许概念上简单地应用R1方法。然而,现实世界的设置是许多代理商,代理交互是复杂的共同利益和竞争方面的混合物。我们认为外交,一个旨在突出由多种代理交互导致的困境的7人棋盘游戏。它还具有大型组合动作空间和同时移动,这对RL算法具有具有挑战性。我们提出了一个简单但有效的近似最佳响应操作员,旨在处理大型组合动作空间并同时移动。我们还介绍了一系列近似虚构游戏的政策迭代方法。通过这些方法,我们成功地将RL申请到外交:我们认为我们的代理商令人信服地令人信服地表明,游戏理论均衡分析表明新过程产生了一致的改进。
translated by 谷歌翻译