寻找两人差异游戏的NASH平衡政策需要解决汉密尔顿 - 雅各布-ISAACS PDES。最近的研究通过采用自我监督(物理知识的)神经网络作为通用价值近似值,在解决这种PDE方面的诅咒方面取得了成功。本文从具有连续值的零和零游戏上的SOTA延伸到具有不连续值的通用游戏,其中不连续性是由玩家的损失引起的。我们表明,由于缺乏对不连续损失的融合证明和概括分析,现有的自我监督学习技术未能概括并引起自动驾驶应用程序中的安全问题。我们的解决方案是首先先预先培训纳什平衡的价值网络,然后通过最大程度地减少将监督数据与PDE和边界条件相结合的损失来对其进行完善。重要的是,提出的学习方法的证明优势针对纯监督和自我监督的方法需要仔细选择神经激活功能:在$ \ texttt {relu} $中} $,我们表明$ \ texttt {tanh} $是实现最佳概括和安全性能的唯一选择。我们的猜想是$ \ texttt {tanh} $(类似于$ \ texttt {sin} $)允许价值连续性及其梯度,这足以满足学习的收敛性,同时也足够表达(类似于$ \ texttt {relu} $)以近似值的价值景观。最后,我们将我们的方法应用于近似控制策略的不完整信息相互作用,并证明了其对安全相互作用的贡献。
translated by 谷歌翻译
我们研究了覆盖的阶段 - 避免多个代理的动态游戏,其中多个代理相互作用,并且每种希望满足不同的目标条件,同时避免失败状态。 Reach-避免游戏通常用于表达移动机器人运动计划中发现的安全关键最优控制问题。虽然这些运动计划问题存在各种方法,但我们专注于找到时间一致的解决方案,其中计划未来的运动仍然是最佳的,尽管先前的次优行动。虽然摘要,时间一致性封装了一个非常理想的财产:即使机器人早期从计划发出的机器人的运动发散,即,由于例如内在的动态不确定性或外在环境干扰,即使机器人的运动分歧,时间一致的运动计划也保持最佳。我们的主要贡献是一种计算 - 避免多种代理的算法算法,避免呈现时间一致的解决方案。我们展示了我们在两位和三位玩家模拟驾驶场景中的方法,其中我们的方法为所有代理商提供了安全控制策略。
translated by 谷歌翻译
Learning-enabled control systems have demonstrated impressive empirical performance on challenging control problems in robotics, but this performance comes at the cost of reduced transparency and lack of guarantees on the safety or stability of the learned controllers. In recent years, new techniques have emerged to provide these guarantees by learning certificates alongside control policies -- these certificates provide concise, data-driven proofs that guarantee the safety and stability of the learned control system. These methods not only allow the user to verify the safety of a learned controller but also provide supervision during training, allowing safety and stability requirements to influence the training process itself. In this paper, we provide a comprehensive survey of this rapidly developing field of certificate learning. We hope that this paper will serve as an accessible introduction to the theory and practice of certificate learning, both to those who wish to apply these tools to practical robotics problems and to those who wish to dive more deeply into the theory of learning for control.
translated by 谷歌翻译
游戏理论运动计划者是控制多个高度交互式机器人系统的有效解决方案。大多数现有的游戏理论规划师不切实际地假设所有代理都可以使用先验的目标功能知识。为了解决这个问题,我们提出了一个容忍度的退缩水平游戏理论运动计划者,该计划者利用了与意图假设的可能性相互交流。具体而言,机器人传达其目标函数以结合意图。离散的贝叶斯过滤器旨在根据观察到的轨迹与传达意图的轨迹之间的差异来实时推断目标。在仿真中,我们考虑了三种安全至关重要的自主驾驶场景,即超车,车道交叉和交叉点,以证明我们计划者在存在通信网络中存在错误的传输情况下利用替代意图假设来产生安全轨迹的能力。
translated by 谷歌翻译
游戏历史悠久的历史悠久地作为人工智能进步的基准。最近,使用搜索和学习的方法在一系列完美的信息游戏中表现出强烈的表现,并且使用游戏理论推理和学习的方法对特定的不完美信息扑克变体表示了很强的性能。我们介绍游戏玩家,一个通用算法,统一以前的方法,结合导游搜索,自助学习和游戏理论推理。游戏播放器是实现大型完美和不完美信息游戏中强大实证性能的第一个算法 - 这是一项真正的任意环境算法的重要一步。我们证明了游戏玩家是声音,融合到完美的游戏,因为可用的计算时间和近似容量增加。游戏播放器在国际象棋上达到了强大的表现,然后击败了最强大的公开可用的代理商,在头上没有限制德克萨斯州扑克(Slumbot),击败了苏格兰院子的最先进的代理人,这是一个不完美的信息游戏,说明了引导搜索,学习和游戏理论推理的价值。
translated by 谷歌翻译
为自治系统提供正式的安全性和绩效保证,随着它们融入我们的社会,它们变得越来越重要。 Hamilton-Jacobi(HJ)可达性分析是提供这些保证的流行正式验证工具,因为它可以处理一般的非线性系统动力学,有限的对抗系统干扰以及状态和输入约束。但是,它涉及求解PDE,其计算和记忆复杂性相对于状态维度呈指数缩放,使其直接使用在大规模系统上可比性。最近提出的一种称为DeepReach的方法通过利用正弦神经网络PDE求解器来解决高维的可及性问题,从而克服了这一挑战,其计算需求量表与基本可及的管子的复杂性而不是状态空间维度的复杂性。不幸的是,神经网络可能会犯错误,因此计算的解决方案可能不安全,这还没有达到我们提供正式安全保证的总体目标。在这项工作中,我们提出了一种计算DeepReach解决方案绑定的错误的方法。然后可以将绑定的误差用于可及管校正,从而导致真实可及管的可靠性近似。我们还提出了一种基于方案优化的方法,以计算一般非线性动力学系统绑定的此错误。我们证明了所提出的方法在获得高维火箭陆和多车碰撞问题的可触及管方面的功效。
translated by 谷歌翻译
Recent years have witnessed a growth in mathematics for deep learning--which seeks a deeper understanding of the concepts of deep learning with mathematics, and explores how to make it more robust--and deep learning for mathematics, where deep learning algorithms are used to solve problems in mathematics. The latter has popularised the field of scientific machine learning where deep learning is applied to problems in scientific computing. Specifically, more and more neural network architectures have been developed to solve specific classes of partial differential equations (PDEs). Such methods exploit properties that are inherent to PDEs and thus solve the PDEs better than classical feed-forward neural networks, recurrent neural networks, and convolutional neural networks. This has had a great impact in the area of mathematical modeling where parametric PDEs are widely used to model most natural and physical processes arising in science and engineering, In this work, we review such methods and extend them for parametric studies as well as for solving the related inverse problems. We equally proceed to show their relevance in some industrial applications.
translated by 谷歌翻译
具有很多玩家的非合作和合作游戏具有许多应用程序,但是当玩家数量增加时,通常仍然很棘手。由Lasry和Lions以及Huang,Caines和Malham \'E引入的,平均野外运动会(MFGS)依靠平均场外近似值,以使玩家数量可以成长为无穷大。解决这些游戏的传统方法通常依赖于以完全了解模型的了解来求解部分或随机微分方程。最近,增强学习(RL)似乎有望解决复杂问题。通过组合MFGS和RL,我们希望在人口规模和环境复杂性方面能够大规模解决游戏。在这项调查中,我们回顾了有关学习MFG中NASH均衡的最新文献。我们首先确定最常见的设置(静态,固定和进化)。然后,我们为经典迭代方法(基于最佳响应计算或策略评估)提供了一个通用框架,以确切的方式解决MFG。在这些算法和与马尔可夫决策过程的联系的基础上,我们解释了如何使用RL以无模型的方式学习MFG解决方案。最后,我们在基准问题上介绍了数值插图,并以某些视角得出结论。
translated by 谷歌翻译
Many autonomous agents, such as intelligent vehicles, are inherently required to interact with one another. Game theory provides a natural mathematical tool for robot motion planning in such interactive settings. However, tractable algorithms for such problems usually rely on a strong assumption, namely that the objectives of all players in the scene are known. To make such tools applicable for ego-centric planning with only local information, we propose an adaptive model-predictive game solver, which jointly infers other players' objectives online and computes a corresponding generalized Nash equilibrium (GNE) strategy. The adaptivity of our approach is enabled by a differentiable trajectory game solver whose gradient signal is used for maximum likelihood estimation (MLE) of opponents' objectives. This differentiability of our pipeline facilitates direct integration with other differentiable elements, such as neural networks (NNs). Furthermore, in contrast to existing solvers for cost inference in games, our method handles not only partial state observations but also general inequality constraints. In two simulated traffic scenarios, we find superior performance of our approach over both existing game-theoretic methods and non-game-theoretic model-predictive control (MPC) approaches. We also demonstrate our approach's real-time planning capabilities and robustness in two hardware experiments.
translated by 谷歌翻译
科学和工程学中的一个基本问题是设计最佳的控制政策,这些政策将给定的系统转向预期的结果。这项工作提出了同时求解给定系统状态和最佳控制信号的控制物理信息的神经网络(控制PINNS),在符合基础物理定律的一个阶段框架中。先前的方法使用两个阶段的框架,该框架首先建模然后按顺序控制系统。相比之下,控制PINN将所需的最佳条件纳入其体系结构和损耗函数中。通过解决以下开环的最佳控制问题来证明控制PINN的成功:(i)一个分析问题,(ii)一维热方程,以及(iii)二维捕食者捕食者问题。
translated by 谷歌翻译
物理信息的神经网络(PINN)是神经网络(NNS),它们作为神经网络本身的组成部分编码模型方程,例如部分微分方程(PDE)。如今,PINN是用于求解PDE,分数方程,积分分化方程和随机PDE的。这种新颖的方法已成为一个多任务学习框架,在该框架中,NN必须在减少PDE残差的同时拟合观察到的数据。本文对PINNS的文献进行了全面的综述:虽然该研究的主要目标是表征这些网络及其相关的优势和缺点。该综述还试图将出版物纳入更广泛的基于搭配的物理知识的神经网络,这些神经网络构成了香草·皮恩(Vanilla Pinn)以及许多其他变体,例如物理受限的神经网络(PCNN),各种HP-VPINN,变量HP-VPINN,VPINN,VPINN,变体。和保守的Pinn(CPINN)。该研究表明,大多数研究都集中在通过不同的激活功能,梯度优化技术,神经网络结构和损耗功能结构来定制PINN。尽管使用PINN的应用范围广泛,但通过证明其在某些情况下比有限元方法(FEM)等经典数值技术更可行的能力,但仍有可能的进步,最著名的是尚未解决的理论问题。
translated by 谷歌翻译
求解高维局部微分方程是经济学,科学和工程的反复挑战。近年来,已经开发了大量的计算方法,其中大多数依赖于蒙特卡罗采样和基于深度学习的近似的组合。对于椭圆形和抛物线问题,现有方法可以广泛地分类为依赖于$ \ Texit {向后随机微分方程} $(BSDES)和旨在最小化回归$ L ^ 2 $ -Error( $ \ textit {物理信息的神经网络} $,pinns)。在本文中,我们审查了文献,并提出了一种基于新型$ \ Texit的方法{扩散丢失} $,在BSDES和Pinns之间插值。我们的贡献为对高维PDE的数值方法的统一理解开辟了门,以及结合BSDES和PINNS强度的实施方式。我们还向特征值问题提供概括并进行广泛的数值研究,包括计算非线性SCHR \“odinger运营商的地面状态和分子动态相关的委托功能的计算。
translated by 谷歌翻译
游戏理论到目前为止在各个领域都发现了许多应用,包括经济学,工业,法学和人工智能,每个玩家都只关心自己对非合作或合作方式的兴趣,但对其他玩家没有明显的恶意。但是,在许多实际应用中,例如扑克,国际象棋,逃避者追求,毒品拦截,海岸警卫队,网络安全和国防,球员通常都具有对抗性立场,也就是说,每个球员的自私行动不可避免地或故意造成损失或对其他球员造成严重破坏。沿着这条线,本文对在对抗性游戏中广泛使用的三种主要游戏模型(即零和零正常形式和广泛形式游戏,stackelberg(Security)游戏,零和差异游戏)提供了系统的调查。观点,包括游戏模型的基本知识,(近似)平衡概念,问题分类,研究前沿,(近似)最佳策略寻求技术,普遍的算法和实际应用。最后,还讨论了有关对抗性游戏的有希望的未来研究方向。
translated by 谷歌翻译
这本数字本书包含在物理模拟的背景下与深度学习相关的一切实际和全面的一切。尽可能多,所有主题都带有Jupyter笔记本的形式的动手代码示例,以便快速入门。除了标准的受监督学习的数据中,我们将看看物理丢失约束,更紧密耦合的学习算法,具有可微分的模拟,以及加强学习和不确定性建模。我们生活在令人兴奋的时期:这些方法具有从根本上改变计算机模拟可以实现的巨大潜力。
translated by 谷歌翻译
一般而言,融合是人类驱动因素和自治车辆的具有挑战性的任务,特别是在密集的交通中,因为合并的车辆通常需要与其他车辆互动以识别或创造间隙并安全合并。在本文中,我们考虑了强制合并方案的自主车辆控制问题。我们提出了一种新的游戏 - 理论控制器,称为领导者跟随者游戏控制器(LFGC),其中自主EGO车辆和其他具有先验不确定驾驶意图的车辆之间的相互作用被建模为部分可观察到的领导者 - 跟随游戏。 LFGC估计基于观察到的轨迹的其他车辆在线在线,然后预测其未来的轨迹,并计划使用模型预测控制(MPC)来同时实现概率保证安全性和合并目标的自我车辆自己的轨迹。为了验证LFGC的性能,我们在模拟和NGSIM数据中测试它,其中LFGC在合并中展示了97.5%的高成功率。
translated by 谷歌翻译
本文开发了一个分布式可区分的动态游戏(DDDG)框架,该框架可以从演示中学习多机器人协调。我们将多机器人协调表示为动态游戏,其中机器人的行为由其自身的动态和目标决定,这也取决于他人的行为。因此,可以通过调整每个机器人的客观和动力学来调整协调。提出的DDDG使每个机器人能够以分布式方式自动调整其单个动力学和目标,从而最大程度地减少其轨迹和演示之间的不匹配。此过程需要前向通道的新分布式设计,在该设计中,所有机器人都协作寻求NASH均衡行为,以及一个向后通行,在该阶段通过通信图传播梯度。我们在仿真中测试了DDDG,并给定不同任务配置的四个小组。结果证明了DDDG从演示中学习多机器人协调的能力
translated by 谷歌翻译
We study the problem of computing an approximate Nash equilibrium of continuous-action game without access to gradients. Such game access is common in reinforcement learning settings, where the environment is typically treated as a black box. To tackle this problem, we apply zeroth-order optimization techniques that combine smoothed gradient estimators with equilibrium-finding dynamics. We model players' strategies using artificial neural networks. In particular, we use randomized policy networks to model mixed strategies. These take noise in addition to an observation as input and can flexibly represent arbitrary observation-dependent, continuous-action distributions. Being able to model such mixed strategies is crucial for tackling continuous-action games that lack pure-strategy equilibria. We evaluate the performance of our method using an approximation of the Nash convergence metric from game theory, which measures how much players can benefit from unilaterally changing their strategy. We apply our method to continuous Colonel Blotto games, single-item and multi-item auctions, and a visibility game. The experiments show that our method can quickly find high-quality approximate equilibria. Furthermore, they show that the dimensionality of the input noise is crucial for performance. To our knowledge, this paper is the first to solve general continuous-action games with unrestricted mixed strategies and without any gradient information.
translated by 谷歌翻译
High-dimensional PDEs have been a longstanding computational challenge. We propose to solve highdimensional PDEs by approximating the solution with a deep neural network which is trained to satisfy the differential operator, initial condition, and boundary conditions. Our algorithm is meshfree, which is key since meshes become infeasible in higher dimensions. Instead of forming a mesh, the neural network is trained on batches of randomly sampled time and space points. The algorithm is tested on a class of high-dimensional free boundary PDEs, which we are able to accurately solve in up to 200 dimensions. The algorithm is also tested on a high-dimensional Hamilton-Jacobi-Bellman PDE and Burgers' equation. The deep learning algorithm approximates the general solution to the Burgers' equation for a continuum of different boundary conditions and physical conditions (which can be viewed as a high-dimensional space). We call the algorithm a "Deep Galerkin Method (DGM)" since it is similar in spirit to Galerkin methods, with the solution approximated by a neural network instead of a linear combination of basis functions. In addition, we prove a theorem regarding the approximation power of neural networks for a class of quasilinear parabolic PDEs.
translated by 谷歌翻译
在学习在模拟环境中执行电机任务时,必须允许神经网络探索其动作空间以发现新的潜在可行的解决方案。但是,在具有物理硬件的在线学习场景中,此探索必须受相关的安全考虑因素限制,以避免损坏代理的硬件和环境。我们的目标是通过培训一个神经网络来解决这个问题,我们将参考“安全网络”,以估算受控自主动态系统的吸引力(ROA)。因此,这种安全网络可以用于量化所提出的控制动作的相对安全性,并防止选择破坏性动作。在这里,我们通过培训人工神经网络(ANN)来表示我们的安全网络的发展,以代表几种自主动态系统基准问题的ROA。对该网络的培训是基于Lyapunov理论和神经解的局部微分方程(PDE)的神经解。通过学习近似包含感兴趣系统动态的特殊选择的PDE的粘度解决方案,安全网络学习近似特定函数,类似于Lyapunov函数,其零电平集是ROA的边界。我们培训我们的安全网络,以便在物理信息通知神经网络(PINN)方法的修改版本之后以半监督方式解决这些PDE,利用损失函数,以惩罚与PDE的初始和边界条件的分歧,以及非零残差和变分术语。在未来的工作中,我们打算在电机学习任务期间将这种技术应用于加强学习代理。
translated by 谷歌翻译
蒙特卡洛树搜索(MCT)是设计游戏机器人或解决顺序决策问题的强大方法。该方法依赖于平衡探索和开发的智能树搜索。MCT以模拟的形式进行随机抽样,并存储动作的统计数据,以在每个随后的迭代中做出更有教育的选择。然而,该方法已成为组合游戏的最新技术,但是,在更复杂的游戏(例如那些具有较高的分支因素或实时系列的游戏)以及各种实用领域(例如,运输,日程安排或安全性)有效的MCT应用程序通常需要其与问题有关的修改或与其他技术集成。这种特定领域的修改和混合方法是本调查的主要重点。最后一项主要的MCT调查已于2012年发布。自发布以来出现的贡献特别感兴趣。
translated by 谷歌翻译