智能论文笔记

Discovering Closed-Loop Failures of Vision-Based Controllers via Reachability Analysis

Kaustav Chakraborty , Somil Bansal

分类：机器人 | 人工智能 | 计算机视觉 | 机器学习

2022-11-04

Machine learning driven image-based controllers allow robotic systems to take intelligent actions based on the visual feedback from their environment. Understanding when these controllers might lead to system safety violations is important for their integration in safety-critical applications and engineering corrective safety measures for the system. Existing methods leverage simulation-based testing (or falsification) to find the failures of vision-based controllers, i.e., the visual inputs that lead to closed-loop safety violations. However, these techniques do not scale well to the scenarios involving high-dimensional and complex visual inputs, such as RGB images. In this work, we cast the problem of finding closed-loop vision failures as a Hamilton-Jacobi (HJ) reachability problem. Our approach blends simulation-based analysis with HJ reachability methods to compute an approximation of the backward reachable tube (BRT) of the system, i.e., the set of unsafe states for the system under vision-based controllers. Utilizing the BRT, we can tractably and systematically find the system states and corresponding visual inputs that lead to closed-loop failures. These visual inputs can be subsequently analyzed to find the input characteristics that might have caused the failure. Besides its scalability to high-dimensional visual inputs, an explicit computation of BRT allows the proposed approach to capture non-trivial system failures that are difficult to expose via random simulations. We demonstrate our framework on two case studies involving an RGB image-based neural network controller for (a) autonomous indoor navigation, and (b) autonomous aircraft taxiing.

translated by 谷歌翻译

Learning Safe, Generalizable Perception-based Hybrid Control with Certificates

Charles Dawson , Bethany Lowenkamp , Dylan Goff , Chuchu Fan

分类：机器人

2022-01-04

许多机器人任务需要高维传感器，如相机和激光雷达，以导航复杂的环境，但是在这些传感器周围开发认可的安全反馈控制器仍然是一个具有挑战性的公开问题，特别是在涉及学习时的开放问题。以前的作品通过分离感知和控制子系统并对感知子系统的能力做出强烈的假设来证明了感知反馈控制器的安全性。在这项工作中，我们介绍了一种新的启用学习的感知反馈混合控制器，在那里我们使用控制屏障函数（CBF）和控制Lyapunov函数（CLF）来显示全堆叠感知反馈控制器的安全性和活力。我们使用神经网络直接在机器人的观察空间中学习全堆栈系统的CBF和CLF，而无需承担基于感知的状态估计器。我们的混合控制器称为基因座（使用切换启用了学习的观察反馈控制），可以安全地导航未知的环境，始终如一地达到其目标，并将安全性安全地概括为培训数据集之外的环境。我们在模拟和硬件中展示了实验中的轨迹，在那里它使用LIDAR传感器的反馈成功地导航变化环境。

translated by 谷歌翻译

Generating Formal Safety Assurances for High-Dimensional Reachability

Albert Lin , Somil Bansal

分类：机器人 | 人工智能 | 机器学习

2022-09-25

为自治系统提供正式的安全性和绩效保证，随着它们融入我们的社会，它们变得越来越重要。 Hamilton-Jacobi（HJ）可达性分析是提供这些保证的流行正式验证工具，因为它可以处理一般的非线性系统动力学，有限的对抗系统干扰以及状态和输入约束。但是，它涉及求解PDE，其计算和记忆复杂性相对于状态维度呈指数缩放，使其直接使用在大规模系统上可比性。最近提出的一种称为DeepReach的方法通过利用正弦神经网络PDE求解器来解决高维的可及性问题，从而克服了这一挑战，其计算需求量表与基本可及的管子的复杂性而不是状态空间维度的复杂性。不幸的是，神经网络可能会犯错误，因此计算的解决方案可能不安全，这还没有达到我们提供正式安全保证的总体目标。在这项工作中，我们提出了一种计算DeepReach解决方案绑定的错误的方法。然后可以将绑定的误差用于可及管校正，从而导致真实可及管的可靠性近似。我们还提出了一种基于方案优化的方法，以计算一般非线性动力学系统绑定的此错误。我们证明了所提出的方法在获得高维火箭陆和多车碰撞问题的可触及管方面的功效。

translated by 谷歌翻译

Partially Observable Markov Decision Processes in Robotics: A Survey

Mikko Lauri , David Hsu , Joni Pajarinen

分类：机器人 | 人工智能

2022-09-21

嘈杂的传感，不完美的控制和环境变化是许多现实世界机器人任务的定义特征。部分可观察到的马尔可夫决策过程（POMDP）提供了一个原则上的数学框架，用于建模和解决不确定性下的机器人决策和控制任务。在过去的十年中，它看到了许多成功的应用程序，涵盖了本地化和导航，搜索和跟踪，自动驾驶，多机器人系统，操纵和人类机器人交互。这项调查旨在弥合POMDP模型的开发与算法之间的差距，以及针对另一端的不同机器人决策任务的应用。它分析了这些任务的特征，并将它们与POMDP框架的数学和算法属性联系起来，以进行有效的建模和解决方案。对于从业者来说，调查提供了一些关键任务特征，以决定何时以及如何成功地将POMDP应用于机器人任务。对于POMDP算法设计师，该调查为将POMDP应用于机器人系统的独特挑战提供了新的见解，并指出了有希望的新方向进行进一步研究。

translated by 谷歌翻译

Kernel-based Diffusion Approximated Markov Decision Processes for Off-Road Autonomous Navigation and Control

Junhong Xu , Kai Yin , Zheng Chen , Jason M. Gregory , Ethan A. Stump , Lantao Liu

分类：机器人

2021-11-16

我们向连续状态马尔可夫决策过程（MDP）提出了一种扩散近似方法，该方法可用于解决非结构化的越野环境中的自主导航和控制。与呈现完全已知的状态转换模型的大多数决策定理计划框架相比，我们设计了一种方法，该方法消除了这种强烈假设，这些假设通常非常难以在现实中工程师。我们首先采用价值函数的二阶泰勒扩展。然后通过部分微分方程近似贝尔曼的最优性方程，其仅依赖于转换模型的第一和第二矩。通过组合价值函数的内核表示，然后设计一种有效的策略迭代算法，其策略评估步骤可以表示为特征的方程式的线性系统，其特征是由有限组支持状态。我们首先通过大量的仿真以2D美元的$ 2D $避让和2.5d $地形导航问题进行验证。结果表明，拟议的方法在几个基线上导致了卓越的性能。然后，我们开发一个系统，该系统将我们的决策框架整合，与船上感知，并在杂乱的室内和非结构化的户外环境中进行现实世界的实验。物理系统的结果进一步展示了我们在挑战现实世界环境中的方法的适用性。

translated by 谷歌翻译

Vision-Only Robot Navigation in a Neural Radiance World

Michal Adamkiewicz , Timothy Chen , Adam Caccavale , Rachel Gardner , Preston Culbertson , Jeannette Bohg , Mac Schwager

分类：机器人

2021-10-01

神经辐射场（NERF）最近被成为自然，复杂3D场景的代表的强大范例。 NERFS表示神经网络中的连续体积密度和RGB值，并通过射线跟踪从看不见的相机观点生成照片逼真图像。我们提出了一种算法，用于通过仅使用用于本地化的板载RGB相机表示为NERF的3D环境导航机器人。我们假设现场的NERF已经预先训练了离线，机器人的目标是通过NERF中的未占用空间导航到目标姿势。我们介绍了一种轨迹优化算法，其避免了基于NERF中的高密度区域的碰撞，其基于差分平整度的离散时间版本，其可用于约束机器人的完整姿势和控制输入。我们还介绍了基于优化的过滤方法，以估计单位的RGB相机中的NERF中机器人的6dof姿势和速度。我们将轨迹策划器与在线重新循环中的姿势过滤器相结合，以提供基于视觉的机器人导航管道。我们使用丛林健身房环境，教堂内部和巨石阵线导航的四轮车机器人，使用RGB相机展示仿真结果。我们还展示了通过教会导航的全向地面机器人，要求它重新定位以缩小差距。这项工作的视频可以在https://mikh3x4.github.io/nerf-navigation/找到。

translated by 谷歌翻译

A Survey of Deep Learning Techniques for Autonomous Driving

Sorin Grigorescu , Bogdan Trasnea , Tiberiu Cocias , Gigel Macesanu

分类：

2019-10-17

The last decade witnessed increasingly rapid progress in self-driving vehicle technology, mainly backed up by advances in the area of deep learning and artificial intelligence. The objective of this paper is to survey the current state-of-the-art on deep learning technologies used in autonomous driving. We start by presenting AI-based self-driving architectures, convolutional and recurrent neural networks, as well as the deep reinforcement learning paradigm. These methodologies form a base for the surveyed driving scene perception, path planning, behavior arbitration and motion control algorithms. We investigate both the modular perception-planning-action pipeline, where each module is built using deep learning methods, as well as End2End systems, which directly map sensory information to steering commands. Additionally, we tackle current challenges encountered in designing AI architectures for autonomous driving, such as their safety, training data sources and computational hardware. The comparison presented in this survey helps to gain insight into the strengths and limitations of deep learning and AI approaches for autonomous driving and assist with design choices. 1

translated by 谷歌翻译

How to Certify Machine Learning Based Safety-critical Systems? A Systematic Literature Review

Florian Tambon , Gabriel Laberge , Le An , Amin Nikanjam , Paulina Stevia Nouwou Mindom , Yann Pequignot , Foutse Khomh , Giulio Antoniol , Ettore Merlo , François Laviolette

分类：机器学习

2021-07-26

背景信息：在过去几年中，机器学习（ML）一直是许多创新的核心。然而，包括在所谓的“安全关键”系统中，例如汽车或航空的系统已经被证明是非常具有挑战性的，因为ML的范式转变为ML带来完全改变传统认证方法。目的：本文旨在阐明与ML为基础的安全关键系统认证有关的挑战，以及文献中提出的解决方案，以解决它们，回答问题的问题如何证明基于机器学习的安全关键系统？'方法：我们开展2015年至2020年至2020年之间发布的研究论文的系统文献综述（SLR），涵盖了与ML系统认证有关的主题。总共确定了217篇论文涵盖了主题，被认为是ML认证的主要支柱：鲁棒性，不确定性，解释性，验证，安全强化学习和直接认证。我们分析了每个子场的主要趋势和问题，并提取了提取的论文的总结。结果：单反结果突出了社区对该主题的热情，以及在数据集和模型类型方面缺乏多样性。它还强调需要进一步发展学术界和行业之间的联系，以加深域名研究。最后，它还说明了必须在上面提到的主要支柱之间建立连接的必要性，这些主要柱主要主要研究。结论：我们强调了目前部署的努力，以实现ML基于ML的软件系统，并讨论了一些未来的研究方向。

translated by 谷歌翻译

Enforcing safety for vision-based controllers via Control Barrier Functions and Neural Radiance Fields

Mukun Tong , Charles Dawson , Chuchu Fan

分类：机器人

2022-09-25

为了浏览复杂的环境，机器人必须越来越多地使用高维视觉反馈（例如图像）进行控制。但是，依靠高维图像数据来控制决策会提出重要的问题；特别是，我们如何证明视觉反馈控制器的安全性？控制屏障功能（CBF）是在状态反馈设置中证明反馈控制器安全性的强大工具，但是由于需要预测未来的观察以评估屏障功能，因此传统上，CBF非常适合视觉反馈控制。。在这项工作中，我们通过利用神经辐射领域（NERFS）的最新进展来解决这个问题，该领域学习了3D场景的隐式表示，并且可以从以前未见的摄像机的角度呈现图像，以提供基于CBF的单步视觉远景控制器。这种新颖的组合能够滤除不安全的动作和干预以保持安全性。我们在实时仿真实验中证明了控制器的效果，在实时模拟实验中，它成功阻止了机器人采取危险的动作。

translated by 谷歌翻译

Monocular Camera-based Complex Obstacle Avoidance via Efficient Deep Reinforcement Learning

Jianchuan Ding , Lingping Gao , Wenxi Liu , Haiyin Piao , Jia Pan , Zhenjun Du , Xin Yang , Baocai Yin

分类：机器人

2022-09-01

深度强化学习在基于激光的碰撞避免有效的情况下取得了巨大的成功，因为激光器可以感觉到准确的深度信息而无需太多冗余数据，这可以在算法从模拟环境迁移到现实世界时保持算法的稳健性。但是，高成本激光设备不仅很难为大型机器人部署，而且还表现出对复杂障碍的鲁棒性，包括不规则的障碍，例如桌子，桌子，椅子和架子，以及复杂的地面和特殊材料。在本文中，我们提出了一个新型的基于单眼相机的复杂障碍避免框架。特别是，我们创新地将捕获的RGB图像转换为伪激光测量，以进行有效的深度强化学习。与在一定高度捕获的传统激光测量相比，仅包含距离附近障碍的一维距离信息，我们提议的伪激光测量融合了捕获的RGB图像的深度和语义信息，这使我们的方法有效地有效障碍。我们还设计了一个功能提取引导模块，以加重输入伪激光测量，并且代理对当前状态具有更合理的关注，这有利于提高障碍避免政策的准确性和效率。

translated by 谷歌翻译

HTML版本

Fast-Replanning Motion Control for Non-Holonomic Vehicles with Aborting A*

Marcell Missura , Arindam Roychoudhury , Maren Bennewitz

分类：机器人

2021-09-16

自主驾驶的车辆必须能够以无碰撞的方式在动态和不可预测的环境中导航。到目前为止，这仅是在无人驾驶汽车和仓库装置中部分实现的，在该装置中，诸如道路，车道和交通标志之类的标记结构简化了运动计划和避免碰撞问题。我们正在为类似汽车的车辆提供一种新的控制方法，该方法基于前所未有的快节奏A*实现，该方法允许控制周期以30 Hz的频率运行。这个频率使我们能够将A*算法作为低级重型控制器，非常适合在几乎任何动态环境中导航和避免碰撞。由于有效的启发式方法由沿着目标最短路径铺设的旋转 - 翻译 - 旋转运动运动，因此我们的短期流产A*（staa*）会快速收敛，并可以尽早中止，以确保高而稳定的控制速度。尽管我们的staa*沿着最短路径扩展状态，但它会照顾与环境的碰撞检查，包括预测的移动障碍状态，并返回计算时间用完时找到的最佳解决方案。尽管计算时间有限，但由于最短路径的以下路径，我们的staa*并未被困在拐角处。在模拟和实体机器人实验中，我们证明了我们的控制方法几乎完全消除了碰撞，并且具有改进的动态窗口方法的改进版本，并具有预测性的避免功能。

translated by 谷歌翻译

Learning Social Navigation from Demonstrations with Conditional Neural Processes

Yigit Yildirim , Emre Ugur

分类：机器人 | 机器学习

2022-10-07

Sociability is essential for modern robots to increase their acceptability in human environments. Traditional techniques use manually engineered utility functions inspired by observing pedestrian behaviors to achieve social navigation. However, social aspects of navigation are diverse, changing across different types of environments, societies, and population densities, making it unrealistic to use hand-crafted techniques in each domain. This paper presents a data-driven navigation architecture that uses state-of-the-art neural architectures, namely Conditional Neural Processes, to learn global and local controllers of the mobile robot from observations. Additionally, we leverage a state-of-the-art, deep prediction mechanism to detect situations not similar to the trained ones, where reactive controllers step in to ensure safe navigation. Our results demonstrate that the proposed framework can successfully carry out navigation tasks regarding social norms in the data. Further, we showed that our system produces fewer personal-zone violations, causing less discomfort.

translated by 谷歌翻译

N$^2$M$^2$: Learning Navigation for Arbitrary Mobile Manipulation Motions in Unseen and Dynamic Environments

Daniel Honerkamp , Tim Welschehold , Abhinav Valada

分类：机器人 | 人工智能

2022-06-17

尽管移动操作在工业和服务机器人技术方面都重要，但仍然是一个重大挑战，因为它需要将最终效应轨迹的无缝整合与导航技能以及对长匹马的推理。现有方法难以控制大型配置空间，并导航动态和未知环境。在先前的工作中，我们建议将移动操纵任务分解为任务空间中最终效果的简化运动生成器，并将移动设备分解为训练有素的强化学习代理，以说明移动基础的运动基础，以说明运动的运动可行性。在这项工作中，我们引入了移动操作的神经导航（n $^2 $ m $^2 $），该导航将这种分解扩展到复杂的障碍环境，并使其能够解决现实世界中的广泛任务。最终的方法可以在未探索的环境中执行看不见的长马任务，同时立即对动态障碍和环境变化做出反应。同时，它提供了一种定义新的移动操作任务的简单方法。我们证明了我们提出的方法在多个运动学上多样化的移动操纵器上进行的广泛模拟和现实实验的能力。代码和视频可在http://mobile-rl.cs.uni-freiburg.de上公开获得。

translated by 谷歌翻译

Sim-to-Lab-to-Real: Safe Reinforcement Learning with Shielding and Generalization Guarantees

Kai-Chieh Hsu , Allen Z. Ren , Duy Phuong Nguyen , Anirudha Majumdar , Jaime F. Fisac

分类：机器人 | 机器学习

2022-01-20

安全是自主系统的关键组成部分，仍然是现实世界中要使用的基于学习的政策的挑战。特别是，由于不安全的行为，使用强化学习学习的政策通常无法推广到新的环境。在本文中，我们提出了SIM到LAB到实验室，以弥合现实差距，并提供概率保证的安全意见政策分配。为了提高安全性，我们采用双重政策设置，其中通过累积任务奖励对绩效政策进行培训，并通过根据汉密尔顿 - 雅各布（Hamilton-Jacobi）（HJ）达到可达性分析来培训备用（安全）政策。在SIM到LAB转移中，我们采用监督控制方案来掩盖探索过程中不安全的行动；在实验室到实验室的转移中，我们利用大约正确的（PAC） - 贝斯框架来提供有关在看不见环境中政策的预期性能和安全性的下限。此外，从HJ可达性分析继承，界限说明了每个环境中最坏情况安全性的期望。我们从经验上研究了两种类型的室内环境中的自我视频导航框架，具有不同程度的光真实性。我们还通过具有四足机器人的真实室内空间中的硬件实验来证明强大的概括性能。有关补充材料，请参见https://sites.google.com/princeton.edu/sim-to-lab-to-real。

translated by 谷歌翻译

Combining optimal control and learning for autonomous aerial navigation in novel indoor environments

Kevin Lin , Brian Huo , Megan Hu

分类：机器人

2021-12-07

本报告提出了微型航空车辆（MAV）自主导航的组合最优控制和感知框架在新颖的室内封闭环境中，专门用于车载传感器数据。我们使用模拟器的特权信息来为我们的感知系统生成3D空间中的最佳航点，以便我们学会模仿。培训的基于学习的感知模块又能够单独生成类似障碍避免从传感器数据（RGB + IMU）的航点。我们展示了框架跨IGIBSON模拟环境中的新颖场景的功效。

translated by 谷歌翻译

A Comprehensive Review on Autonomous Navigation

Saeid Nahavandi , Roohallah Alizadehsani , Darius Nahavandi , Shady Mohamed , Navid Mohajer , Mohammad Rokonuzzaman , Ibrahim Hossain

分类：机器人

2022-12-24

The field of autonomous mobile robots has undergone dramatic advancements over the past decades. Despite achieving important milestones, several challenges are yet to be addressed. Aggregating the achievements of the robotic community as survey papers is vital to keep the track of current state-of-the-art and the challenges that must be tackled in the future. This paper tries to provide a comprehensive review of autonomous mobile robots covering topics such as sensor types, mobile robot platforms, simulation tools, path planning and following, sensor fusion methods, obstacle avoidance, and SLAM. The urge to present a survey paper is twofold. First, autonomous navigation field evolves fast so writing survey papers regularly is crucial to keep the research community well-aware of the current status of this field. Second, deep learning methods have revolutionized many fields including autonomous navigation. Therefore, it is necessary to give an appropriate treatment of the role of deep learning in autonomous navigation as well which is covered in this paper. Future works and research gaps will also be discussed.

translated by 谷歌翻译

An Efficient Locally Reactive Controller for Safe Navigation in Visual Teach and Repeat Missions

Matías Mattamala , Nived Chebrolu , Maurice Fallon

分类：机器人

2022-01-11

为了实现成功的实地自主权，移动机器人需要自由适应环境的变化。视觉导航系统（如视觉教学和重复（VT＆R）通常会假设参考轨迹周围的空间是自由的，但如果环境受阻，则路径跟踪可能会失败，或者机器人可以与先前看不见的障碍物碰撞。在这项工作中，我们为VT＆R系统提供了一个局部反应控制器，允许机器人尽管对环境进行物理变化，但是尽管环境变化。我们的控制器使用本地高程映射来计算矢量表示，并输出10 Hz导航的Twist命令。它们组合在Riemannian运动策略（RMP）控制器中，该控制器需要<2 ms以在CPU上运行。我们将我们的控制器与VT＆R系统集成在内的ANYMAL COMOT，并在室内杂乱的空间和大规模地下矿井中进行了测试。我们表明，当发生诸如靠近墙壁，交叉门口或穿越狭窄的走廊时，当发生视觉跟踪时，我们的本地反应控制器保持机器人安全。视频：https://youtu.be/g_awnec5awu.

translated by 谷歌翻译

UAVs Beneath the Surface: Cooperative Autonomy for Subterranean Search and Rescue in DARPA SubT

Matej Petrlik , Pavel Petracek , Vit Kratky , Tomas Musil , Yurii Stasinchuk , Matous Vrba , Tomas Baca , Daniel Hert , Martin Pecka , Tomas Svoboda

分类：机器人 | 人工智能

2022-06-16

本文提出了一种新颖的方法，用于在具有复杂拓扑结构的地下领域的搜索和救援行动中自动合作。作为CTU-Cras-Norlab团队的一部分，拟议的系统在DARPA SubT决赛的虚拟轨道中排名第二。与专门为虚拟轨道开发的获奖解决方案相反，该建议的解决方案也被证明是在现实世界竞争极为严峻和狭窄的环境中飞行的机上实体无人机的强大系统。提出的方法可以使无缝模拟转移的无人机团队完全自主和分散的部署，并证明了其优于不同环境可飞行空间的移动UGV团队的优势。该论文的主要贡献存在于映射和导航管道中。映射方法采用新颖的地图表示形式 - 用于有效的风险意识长距离计划，面向覆盖范围和压缩的拓扑范围的LTVMAP领域，以允许在低频道通信下进行多机器人合作。这些表示形式与新的方法一起在导航中使用，以在一般的3D环境中可见性受限的知情搜索，而对环境结构没有任何假设，同时将深度探索与传感器覆盖的剥削保持平衡。所提出的解决方案还包括一条视觉感知管道，用于在没有专用GPU的情况下在5 Hz处进行四个RGB流中感兴趣的对象的板上检测和定位。除了参与DARPA SubT外，在定性和定量评估的各种环境中，在不同的环境中进行了广泛的实验验证，UAV系统的性能得到了支持。

translated by 谷歌翻译

WayFAST: Navigation with Predictive Traversability in the Field

Mateus Valverde Gasparino , Arun Narenthiran Sivakumar , Yixiao Liu , Andres Eduardo Baquero Velasquez , Vitor Akihiro Hisano Higuti , John Rogers , Huy Tran , Girish Chowdhary

分类：机器人 | 人工智能 | 计算机视觉 | 机器学习

2022-03-22

我们提出了一种自我监督的方法，用于预测需要良好牵引力才能导航的轮式移动机器人的可穿越路径。我们的算法称为Wayfast（无路线自动驾驶系统用于遍历性），使用RGB和深度数据以及导航经验，自主在室外非结构化环境中自主生成可遍历的路径。我们的主要灵感是，可以使用动力动力学模型估算滚动机器人的牵引力。使用在线退化的视野估计器提供的牵引力估计值，我们能够以自我监督的方式训练遍历性预测神经网络，而无需以前的方法使用的启发式方法。我们通过在各种环境中进行广泛的现场测试来证明Wayfast的有效性，从沙滩到森林檐篷和积雪覆盖的草田不等。我们的结果清楚地表明，Wayfast可以学会避免几何障碍物以及不可传输的地形，例如雪，这很难避免使用仅提供几何数据（例如LiDAR）的传感器。此外，我们表明，基于在线牵引力估计的培训管道比其他基于启发式的方法更有效率。

translated by 谷歌翻译

Safety and Liveness Guarantees through Reach-Avoid Reinforcement Learning

Kai-Chieh Hsu , Vicenç Rubies-Royo , Claire J. Tomlin , Jaime F. Fisac

分类：机器学习 | 机器人

2021-12-23

Reach-避免最佳控制问题，其中系统必须在保持某些目标条件的同时保持清晰的不可接受的故障模式，是自主机器人系统的安全和活力保证的核心，但它们的确切解决方案是复杂的动态和环境的难以解决。最近的钢筋学习方法的成功与绩效目标大致解决最佳控制问题，使其应用于认证问题有吸引力;然而，加固学习中使用的拉格朗日型客观不适合编码时间逻辑要求。最近的工作表明，在将加强学习机械扩展到安全型问题时，其目标不是总和，但随着时间的推移最小（或最大）。在这项工作中，我们概括了加强学习制定，以处理覆盖范围的所有最佳控制问题。我们推出了一个时间折扣 - 避免了收缩映射属性的贝尔曼备份，并证明了所得达到避免Q学习算法在类似条件下会聚到传统的拉格朗郎类型问题，从而避免任意紧凑的保守近似值放。我们进一步证明了这种配方利用深度加强学习方法，通过将近似解决方案视为模型预测监督控制框架中的不受信任的oracles来保持零违规保证。我们评估我们在一系列非线性系统上的提出框架，验证了对分析和数值解决方案的结果，并通过Monte Carlo仿真在以前的棘手问题中。我们的结果为一系列基于学习的自治行为开放了大门，具有机器人和自动化的应用。有关代码和补充材料，请参阅https://github.com/saferoboticslab/safett_rl。

translated by 谷歌翻译