在本文中,我们提出了一个健壮的模仿学习(IL)框架,该框架在扰动环境动态时改善了IL的稳健性。在单个环境中训练的现有IL框架可能会因环境动力学的扰动而灾难性地失败,因为它无法捕获可以更改潜在环境动态的情况。我们的框架有效地处理了具有不同动态的环境,通过模仿了采样环境动力学中的多个专家,以增强环境动力学的一般变化中的鲁棒性。为了强力模仿多个样本专家,我们将代理商政策与每个样本专家之间的Jensen-Shannon分歧降低了风险。数值结果表明,与常规IL基准相比,我们的算法显着提高了针对动力学扰动的鲁棒性。
translated by 谷歌翻译
在许多顺序决策问题(例如,机器人控制,游戏播放,顺序预测),人类或专家数据可用包含有关任务的有用信息。然而,来自少量专家数据的模仿学习(IL)可能在具有复杂动态的高维环境中具有挑战性。行为克隆是一种简单的方法,由于其简单的实现和稳定的收敛而被广泛使用,但不利用涉及环境动态的任何信息。由于对奖励和政策近似器或偏差,高方差梯度估计器,难以在实践中难以在实践中努力训练的许多现有方法。我们介绍了一种用于动态感知IL的方法,它通过学习单个Q函数来避免对抗训练,隐含地代表奖励和策略。在标准基准测试中,隐式学习的奖励显示与地面真实奖励的高正面相关性,说明我们的方法也可以用于逆钢筋学习(IRL)。我们的方法,逆软Q学习(IQ-Learn)获得了最先进的结果,在离线和在线模仿学习设置中,显着优于现有的现有方法,这些方法都在所需的环境交互和高维空间中的可扩展性中,通常超过3倍。
translated by 谷歌翻译
我们提出了状态匹配的离线分布校正估计(SMODICE),这是一种新颖且基于多功能回归的离线模仿学习(IL)算法,该算法是通过状态占用匹配得出的。我们表明,SMODICE目标通过在表格MDP中的Fenchel二元性和一个分析解决方案的应用来接受一个简单的优化过程。不需要访问专家的行动,可以将Smodice有效地应用于三个离线IL设置:(i)模仿观察值(IFO),(ii)IFO具有动态或形态上不匹配的专家,以及(iii)基于示例的加固学习,这些学习我们表明可以将其公式为州占领的匹配问题。我们在GridWorld环境以及高维离线基准上广泛评估了Smodice。我们的结果表明,Smodice对于所有三个问题设置都有效,并且在前最新情况下均明显胜过。
translated by 谷歌翻译
我们研究了离线模仿学习(IL)的问题,在该问题中,代理商旨在学习最佳的专家行为政策,而无需其他在线环境互动。取而代之的是,该代理来自次优行为的补充离线数据集。解决此问题的先前工作要么要求专家数据占据离线数据集的大部分比例,要么需要学习奖励功能并在以后执行离线加强学习(RL)。在本文中,我们旨在解决问题,而无需进行奖励学习和离线RL培训的其他步骤,当时示范包含大量次优数据。基于行为克隆(BC),我们引入了一个额外的歧视者,以区分专家和非专家数据。我们提出了一个合作框架,以增强这两个任务的学习,基于此框架,我们设计了一种新的IL算法,其中歧视者的输出是BC损失的权重。实验结果表明,与基线算法相比,我们提出的算法可获得更高的回报和更快的训练速度。
translated by 谷歌翻译
仿制学习(IL)是一个框架,了解从示范中模仿专家行为。最近,IL显示了高维和控制任务的有希望的结果。然而,IL通常遭受环境互动方面的样本低效率,这严重限制了它们对模拟域的应用。在工业应用中,学习者通常具有高的相互作用成本,与环境的互动越多,对环境的损害越多,学习者本身就越多。在本文中,我们努力通过引入逆钢筋学习的新颖方案来提高样本效率。我们的方法,我们调用\ texit {model redion函数基础的模仿学习}(mrfil),使用一个集合动态模型作为奖励功能,是通过专家演示培训的内容。关键的想法是通过在符合专家示范分布时提供积极奖励,为代理商提供与漫长地平线相匹配的演示。此外,我们展示了新客观函数的收敛保证。实验结果表明,与IL方法相比,我们的算法达到了竞争性能,并显着降低了环境交互。
translated by 谷歌翻译
仿制学习(IL)是在连续控制环境中的流行方法,如其他原因,它避免了加固学习中奖励错误规范和探索的问题(RL)。在IL的示威中,一个重要的挑战是获得对投入顺利进行的代理政策。通过模仿作为一个稳定的函数来学习,这是一种顺利的策略($ S $-$)空间(典型的高维连续控制环境)可能是具有挑战性的。我们采取了第一步迈出了通过使用\ Texit {两者}的策略和成本模型来解决这个问题的解决这个问题。我们的符合方案通过确保成本函数以受控方式变化为$ S $的函数 - $空间;而代理政策对国家空间良好表现得很好。我们称之为新的顺利IL算法\«Spoolly Policy和Cost Imitation Learning}(Spacil,Pronoughce'Special')。我们介绍了一种新的指标来量化学习政策的顺利。我们展示了Spacil在Mujoco的连续控制任务方面的卓越性能。该算法不仅优于我们所提出的平滑度指标的最先进的IL算法,但是,享有更快的学习和大幅更高的平均回报的增加的好处。
translated by 谷歌翻译
我们在专家和学习者之间的过渡动力学下研究了逆钢筋学习(IRL)问题。具体而言,我们考虑最大因果熵(MCE)IRL学习者模型,并根据专家和学习者的转换动态之间的$ \ ell_1 $ -disce提供学习者的性能下降的紧密上限。利用强大的RL文献的洞察力,我们提出了一种强大的MCE IRL算法,这是一种有效的方法来帮助这种不匹配。最后,我们经验展示了我们算法的稳定性能,而在有限和连续的MDP问题中的转换动态不匹配下的标准MCE IRL算法相比。
translated by 谷歌翻译
Current approaches to multi-agent cooperation rely heavily on centralized mechanisms or explicit communication protocols to ensure convergence. This paper studies the problem of distributed multi-agent learning without resorting to centralized components or explicit communication. It examines the use of distribution matching to facilitate the coordination of independent agents. In the proposed scheme, each agent independently minimizes the distribution mismatch to the corresponding component of a target visitation distribution. The theoretical analysis shows that under certain conditions, each agent minimizing its individual distribution mismatch allows the convergence to the joint policy that generated the target distribution. Further, if the target distribution is from a joint policy that optimizes a cooperative task, the optimal policy for a combination of this task reward and the distribution matching reward is the same joint policy. This insight is used to formulate a practical algorithm (DM$^2$), in which each individual agent matches a target distribution derived from concurrently sampled trajectories from a joint expert policy. Experimental validation on the StarCraft domain shows that combining (1) a task reward, and (2) a distribution matching reward for expert demonstrations for the same task, allows agents to outperform a naive distributed baseline. Additional experiments probe the conditions under which expert demonstrations need to be sampled to obtain the learning benefits.
translated by 谷歌翻译
仅国家模仿学习的最新进展将模仿学习的适用性扩展到现实世界中的范围,从而减轻了观察专家行动的需求。但是,现有的解决方案只学会从数据中提取州对行动映射策略,而无需考虑专家如何计划到目标。这阻碍了利用示威游行并限制政策的灵活性的能力。在本文中,我们介绍了解耦政策优化(DEPO),该策略优化(DEPO)明确将策略脱离为高级状态计划者和逆动力学模型。借助嵌入式的脱钩策略梯度和生成对抗训练,DEPO可以将知识转移到不同的动作空间或状态过渡动态,并可以将规划师推广到无示威的状态区域。我们的深入实验分析表明,DEPO在学习最佳模仿性能的同时学习通用目标状态计划者的有效性。我们证明了DEPO通过预训练跨任务转移的吸引力,以及与各种技能共同培训的潜力。
translated by 谷歌翻译
模仿学习算法已被解释为差异最小化问题的变体。比较专家和学习者之间的入住措施的能力对于他们从示范中学习的有效性至关重要。在本文中,我们通过将模仿学习作为最小化占用度量之间的距离距离来介绍可进行的解决方案。该公式结合了最佳运输指标在比较非重叠分布与在对手学习的特征空间中定义的余弦距离成本中的宝贵特性。这导致了高度歧视性的评论家网络和最佳运输计划,随后指导模仿学习。我们使用奖励度量和sindhorn距离度量度量评估了所提出的方法。有关实施和复制结果,请参阅以下存储库https://github.com/gpapagiannis/sinkhorn-imitation。
translated by 谷歌翻译
样本效率对于仿制学习方法来说至关重要,以适用于现实世界应用。许多研究通过延长对抗性模仿的违法行为来提高样本效率,无论这些违规延迟是否可以改变原始目标或涉及复杂的优化。我们重新审视对抗性模仿的基础,并提出了一种不需要对抗性培训或最小最大优化的脱营式样本有效方法。我们的配方在两个主要见解中大写:(1)Bellman方程和静止状态 - 动作分配方程之间的相似性使我们能够推导出一种新的时间差异(TD)学习方法; (2)使用确定性政策简化了TD学习。结合,这些见解产生了一种实用的算法,确定性和鉴别的模仿(D2仿真),其通过第一分区样本来分为两个重放缓冲区,然后通过禁止策略加强学习学习确定性政策。我们的经验结果表明,D2模仿在实现良好的样本效率方面有效,表现出对许多控制任务的对抗模仿的几种违规延伸方法。
translated by 谷歌翻译
离线增强学习(RL)将经典RL算法的范式扩展到纯粹从静态数据集中学习,而无需在学习过程中与基础环境进行交互。离线RL的一个关键挑战是政策培训的不稳定,这是由于离线数据的分布与学习政策的未结束的固定状态分配之间的不匹配引起的。为了避免分配不匹配的有害影响,我们将当前政策的未静置固定分配正规化在政策优化过程中的离线数据。此外,我们训练动力学模型既实施此正规化,又可以更好地估计当前策略的固定分布,从而减少了分布不匹配引起的错误。在各种连续控制的离线RL数据集中,我们的方法表示竞争性能,从而验证了我们的算法。该代码公开可用。
translated by 谷歌翻译
仿制学习(IL)是一种有效的学习范例,利用代理和环境之间的交互。它不需要显式奖励信号,而是尝试使用专家演示恢复所需的策略。通常,IL方法可以分类为行为克隆(BC)和逆钢筋学习(IRL)。在这项工作中,提出了一种基于概率密度估计的新型奖励功能,用于IRL,这可以显着降低现有IRL方法的复杂性。此外,我们证明,只要确定性,我们源自奖励函数的理论上最佳政策与专家政策相同。因此,可以优雅地将IRL问题变为概率密度估计问题。基于所提出的奖励函数,我们展示了一个“观看 - 尝试学习”样式框架命名概率密度估计的基于仿真学习(PDEIL),其可以在离散和连续的动作空间中工作。最后,在健身房环境中的综合实验表明,Pdeil比现有算法恢复靠近地面真理的奖励更有效。
translated by 谷歌翻译
尽管理论上的行为克隆(BC)遭受了复杂错误,但其可扩展性和简单性仍然使其成为一种有吸引力的模仿学习算法。相比之下,对抗性训练的模仿方法通常不会共享相同的问题,但需要与环境进行互动。同时,大多数模仿学习方法仅利用最佳数据集,这可能比其次优的数据集更昂贵。出现的一个问题是,我们可以以原则上的方式使用次优数据集,否则会闲置吗?我们提出了一个基于可扩展模型的离线模仿学习算法框架,该算法框架利用次优和最佳策略收集的数据集,并表明其最坏情况下的次优率在时间范围内相对于专家样本而变线。我们从经验上验证了我们的理论结果,并表明所提出的方法\ textit {始终}在模拟连续控制域的低数据状态下优于BC。
translated by 谷歌翻译
在学徒学习(AL)中,我们在没有获得成本函数的情况下给予马尔可夫决策过程(MDP)。相反,我们观察由根据某些政策执行的专家采样的轨迹。目标是找到一个与专家对某些预定义的成本函数的性能相匹配的策略。我们介绍了AL的在线变体(在线学徒学习; OAL),其中代理商预计与环境相互作用,在与环境互动的同时相互表现。我们表明,通过组合两名镜面血缘无遗憾的算法可以有效地解决了OAL问题:一个用于策略优化,另一个用于学习最坏情况的成本。通过采用乐观的探索,我们使用$ O(\ SQRT {k})$后悔派生算法,其中$ k $是与MDP的交互数量以及额外的线性错误术语,其取决于专家轨迹的数量可用的。重要的是,我们的算法避免了在每次迭代时求解MDP的需要,与先前的AL方法相比,更实用。最后,我们实现了我们算法的深层变体,该算法与Gail \ Cite {Ho2016Generative}共享了一些相似之处,但在鉴别者被替换为OAL问题的成本。我们的模拟表明OAL在高维控制问题中表现良好。
translated by 谷歌翻译
需要大量人类努力和迭代的奖励功能规范仍然是通过深入的强化学习来学习行为的主要障碍。相比之下,提供所需行为的视觉演示通常会提供一种更简单,更自然的教师的方式。我们考虑为代理提供了一个固定的视觉演示数据集,说明了如何执行任务,并且必须学习使用提供的演示和无监督的环境交互来解决任务。此设置提出了许多挑战,包括对视觉观察的表示,由于缺乏固定的奖励或学习信号而导致的,由于高维空间而引起的样本复杂性以及学习不稳定。为了解决这些挑战,我们开发了一种基于变异模型的对抗模仿学习(V-Mail)算法。基于模型的方法为表示学习,实现样本效率并通过实现派利学习来提高对抗性训练的稳定性提供了强烈的信号。通过涉及几种基于视觉的运动和操纵任务的实验,我们发现V-Mail以样本有效的方式学习了成功的视觉运动策略,与先前的工作相比,稳定性更高,并且还可以实现较高的渐近性能。我们进一步发现,通过传输学习模型,V-Mail可以从视觉演示中学习新任务,而无需任何其他环境交互。所有结果在内的所有结果都可以在\ url {https://sites.google.com/view/variational-mail}在线找到。
translated by 谷歌翻译
Standard imitation learning can fail when the expert demonstrators have different sensory inputs than the imitating agent. This is because partial observability gives rise to hidden confounders in the causal graph. We break down the space of confounded imitation learning problems and identify three settings with different data requirements in which the correct imitation policy can be identified. We then introduce an algorithm for deconfounded imitation learning, which trains an inference model jointly with a latent-conditional policy. At test time, the agent alternates between updating its belief over the latent and acting under the belief. We show in theory and practice that this algorithm converges to the correct interventional policy, solves the confounding issue, and can under certain assumptions achieve an asymptotically optimal imitation performance.
translated by 谷歌翻译
离线模仿学习(IL)是从没有奖励标签的专家演示中解决决策问题的强大方法。由于协变量转移,现有的离线IL方法在有限的专家数据下遭受严重的性能变性。但是,包括学习的动力学模型可以潜在地改善专家数据的状态行动空间覆盖范围,但是,它也面临着诸如模型近似/概括/概括性错误和推出数据的次级优势之类的挑战性问题。在本文中,我们提出了基于歧视者指导的基于模型的离线模仿学习(DMIL)框架,该框架引入了一个歧视者,以同时区分模型推出数据的动力学正确性和次优性与真实专家示范。 DMIL采用了一种新颖的合作对抗学习策略,该策略使用歧视者指导和融合了政策和动态模型的学习过程,从而改善了模型性能和鲁棒性。当演示包含大量次优数据时,我们的框架也可以扩展到案例。实验结果表明,与小型数据集下的最新离线IL方法相比,DMIL及其扩展具有出色的性能和鲁棒性。
translated by 谷歌翻译
Consider learning a policy from example expert behavior, without interaction with the expert or access to reinforcement signal. One approach is to recover the expert's cost function with inverse reinforcement learning, then extract a policy from that cost function with reinforcement learning. This approach is indirect and can be slow. We propose a new general framework for directly extracting a policy from data, as if it were obtained by reinforcement learning following inverse reinforcement learning. We show that a certain instantiation of our framework draws an analogy between imitation learning and generative adversarial networks, from which we derive a model-free imitation learning algorithm that obtains significant performance gains over existing model-free methods in imitating complex behaviors in large, high-dimensional environments.
translated by 谷歌翻译
模仿学习研究社区最近取得了重大进展,以使人工代理人仅凭视频演示模仿行为。然而,由于视频观察的高维质性质,针对此问题开发的当前最新方法表现出很高的样本复杂性。为了解决这个问题,我们在这里介绍了一种新的算法,称为使用状态观察者VGAIFO-SO从观察中获得的,称为视觉生成对抗性模仿。 Vgaifo-So以此为核心,试图使用一种新型的自我监管的状态观察者来解决样本效率低下,该观察者从高维图像中提供了较低维度的本体感受状态表示的估计。我们在几个连续的控制环境中进行了实验表明,Vgaifo-SO比其他IFO算法更有效地从仅视频演示中学习,有时甚至可以实现与观察(Gaifo)算法的生成对抗性模仿(Gaifo)算法的性能,该算法有特权访问访问权限示威者的本体感知状态信息。
translated by 谷歌翻译