到达状态的密度可以帮助理解安全至关重要的系统的风险,尤其是在最坏情况下的情况过于保守的情况下。最近的工作提供了一种数据驱动的方法来计算自主系统在线前进状态的密度分布。在本文中,我们研究了这种方法与模型预测控制在不确定性下的可验证安全路径计划的结合。我们首先使用学习的密度分布来计算在线碰撞的风险。如果这种风险超过可接受的阈值,我们的方法将计划在先前轨迹周围采取新的途径,并在阈值以下碰撞风险。我们的方法非常适合处理具有不确定性和复杂动力学的系统,因为我们的数据驱动方法不需要系统动力学的分析形式,并且可以通过不确定性的任意初始分布来估算正向状态密度。我们设计了两个具有挑战性的场景(自动驾驶和气垫船控制),以在系统不确定性下的障碍物中进行安全运动计划。我们首先表明我们的密度估计方法可以达到与基于蒙特卡洛的方法相似的准确性,同时仅使用0.01倍训练样本。通过利用估计的风险,我们的算法在执行超过0.99的安全速率时达到目标达到最高成功率。
translated by 谷歌翻译
本文着重于影响弹性的移动机器人的碰撞运动计划和控制的新兴范式转移,并开发了一个统一的层次结构框架,用于在未知和部分观察的杂物空间中导航。在较低级别上,我们开发了一种变形恢复控制和轨迹重新启动策略,该策略处理可能在本地运行时发生的碰撞。低级系统会积极检测碰撞(通过内部内置的移动机器人上的嵌入式霍尔效应传感器),使机器人能够从其内部恢复,并在本地调整后影响后的轨迹。然后,在高层,我们提出了一种基于搜索的计划算法,以确定如何最好地利用潜在的碰撞来改善某些指标,例如控制能量和计算时间。我们的方法建立在A*带有跳跃点的基础上。我们生成了一种新颖的启发式功能,并进行了碰撞检查和调整技术,从而使A*算法通过利用和利用可能的碰撞来更快地收敛到达目标。通过将全局A*算法和局部变形恢复和重新融合策略以及该框架的各个组件相结合而生成的整体分层框架在模拟和实验中都经过了广泛的测试。一项消融研究借鉴了与基于搜索的最先进的避免碰撞计划者(用于整体框架)的链接,以及基于搜索的避免碰撞和基于采样的碰撞 - 碰撞 - 全球规划师(对于更高的较高的碰撞 - 等级)。结果证明了我们的方法在未知环境中具有碰撞的运动计划和控制的功效,在2D中运行的一类撞击弹性机器人具有孤立的障碍物。
translated by 谷歌翻译
作为自动驾驶系统的核心部分,运动计划已受到学术界和行业的广泛关注。但是,由于非体力学动力学,尤其是在存在非结构化的环境和动态障碍的情况下,没有能够有效的轨迹计划解决方案能够为空间周期关节优化。为了弥合差距,我们提出了一种多功能和实时轨迹优化方法,该方法可以在任意约束下使用完整的车辆模型生成高质量的可行轨迹。通过利用类似汽车的机器人的差异平坦性能,我们使用平坦的输出来分析所有可行性约束,以简化轨迹计划问题。此外,通过全尺寸多边形实现避免障碍物,以产生较少的保守轨迹,并具有安全保证,尤其是在紧密约束的空间中。我们通过最先进的方法介绍了全面的基准测试,这证明了所提出的方法在效率和轨迹质量方面的重要性。现实世界实验验证了我们算法的实用性。我们将发布我们的代码作为开源软件包,目的是参考研究社区。
translated by 谷歌翻译
Motion planning is challenging for autonomous systems in multi-obstacle environments due to nonconvex collision avoidance constraints. Directly applying numerical solvers to these nonconvex formulations fails to exploit the constraint structures, resulting in excessive computation time. In this paper, we present an accelerated collision-free motion planner, namely regularized dual alternating direction method of multipliers (RDADMM or RDA for short), for the model predictive control (MPC) based motion planning problem. The proposed RDA addresses nonconvex motion planning via solving a smooth biconvex reformulation via duality and allows the collision avoidance constraints to be computed in parallel for each obstacle to reduce computation time significantly. We validate the performance of the RDA planner through path-tracking experiments with car-like robots in simulation and real world setting. Experimental results show that the proposed methods can generate smooth collision-free trajectories with less computation time compared with other benchmarks and perform robustly in cluttered environments.
translated by 谷歌翻译
Learning-enabled control systems have demonstrated impressive empirical performance on challenging control problems in robotics, but this performance comes at the cost of reduced transparency and lack of guarantees on the safety or stability of the learned controllers. In recent years, new techniques have emerged to provide these guarantees by learning certificates alongside control policies -- these certificates provide concise, data-driven proofs that guarantee the safety and stability of the learned control system. These methods not only allow the user to verify the safety of a learned controller but also provide supervision during training, allowing safety and stability requirements to influence the training process itself. In this paper, we provide a comprehensive survey of this rapidly developing field of certificate learning. We hope that this paper will serve as an accessible introduction to the theory and practice of certificate learning, both to those who wish to apply these tools to practical robotics problems and to those who wish to dive more deeply into the theory of learning for control.
translated by 谷歌翻译
为自治系统提供正式的安全性和绩效保证,随着它们融入我们的社会,它们变得越来越重要。 Hamilton-Jacobi(HJ)可达性分析是提供这些保证的流行正式验证工具,因为它可以处理一般的非线性系统动力学,有限的对抗系统干扰以及状态和输入约束。但是,它涉及求解PDE,其计算和记忆复杂性相对于状态维度呈指数缩放,使其直接使用在大规模系统上可比性。最近提出的一种称为DeepReach的方法通过利用正弦神经网络PDE求解器来解决高维的可及性问题,从而克服了这一挑战,其计算需求量表与基本可及的管子的复杂性而不是状态空间维度的复杂性。不幸的是,神经网络可能会犯错误,因此计算的解决方案可能不安全,这还没有达到我们提供正式安全保证的总体目标。在这项工作中,我们提出了一种计算DeepReach解决方案绑定的错误的方法。然后可以将绑定的误差用于可及管校正,从而导致真实可及管的可靠性近似。我们还提出了一种基于方案优化的方法,以计算一般非线性动力学系统绑定的此错误。我们证明了所提出的方法在获得高维火箭陆和多车碰撞问题的可触及管方面的功效。
translated by 谷歌翻译
延迟在迅速变化的环境中运行的自主系统的危害安全性,例如在自动驾驶和高速赛车方面的交通参与者的非确定性。不幸的是,在传统的控制器设计或在物理世界中部署之前,通常不考虑延迟。在本文中,从非线性优化到运动计划和控制以及执行器引起的其他不可避免的延迟的计算延迟被系统地和统一解决。为了处理所有这些延迟,在我们的框架中:1)我们提出了一种新的过滤方法,而没有事先了解动态和干扰分布的知识,以适应,安全地估算时间变化的计算延迟; 2)我们为转向延迟建模驱动动力学; 3)所有约束优化均在强大的管模型预测控制器中实现。对于应用的优点,我们证明我们的方法适合自动驾驶和自动赛车。我们的方法是独立延迟补偿控制器的新型设计。此外,在假设无延迟作为主要控制器的学习控制器的情况下,我们的方法是主要控制器的安全保护器。
translated by 谷歌翻译
许多机器人任务需要高维传感器,如相机和激光雷达,以导航复杂的环境,但是在这些传感器周围开发认可的安全反馈控制器仍然是一个具有挑战性的公开问题,特别是在涉及学习时的开放问题。以前的作品通过分离感知和控制子系统并对感知子系统的能力做出强烈的假设来证明了感知反馈控制器的安全性。在这项工作中,我们介绍了一种新的启用学习的感知反馈混合控制器,在那里我们使用控制屏障函数(CBF)和控制Lyapunov函数(CLF)来显示全堆叠感知反馈控制器的安全性和活力。我们使用神经网络直接在机器人的观察空间中学习全堆栈系统的CBF和CLF,而无需承担基于感知的状态估计器。我们的混合控制器称为基因座(使用切换启用了学习的观察反馈控制),可以安全地导航未知的环境,始终如一地达到其目标,并将安全性安全地概括为培训数据集之外的环境。我们在模拟和硬件中展示了实验中的轨迹,在那里它使用LIDAR传感器的反馈成功地导航变化环境。
translated by 谷歌翻译
我们为一类不确定的控制型非线性系统提供了一种运动计划算法,该系统可以在使用高维传感器测量值(例如RGB-D图像)和反馈控制循环中的学习感知模块时确保运行时安全性和目标达到性能。首先,给定状态和观察数据集,我们训练一个感知系统,该系统试图从观察结果中倒入状态的一部分,并估计感知错误上的上限,该误差有效,在数据附近有可信赖的域中具有很高的概率。接下来,我们使用收缩理论来设计稳定的状态反馈控制器和收敛的动态观察者,该观察者使用学习的感知系统来更新其状态估计。当该控制器在动力学和不正确状态估计中遇到错误时,我们会在轨迹跟踪误差上得出一个绑定。最后,我们将此绑定到基于采样的运动计划器中,引导它返回可以使用传感器数据在运行时安全跟踪的轨迹。我们展示了我们在4D汽车上模拟的方法,6D平面四极管以及使用RGB(-D)传感器测量的17D操纵任务,这表明我们的方法安全可靠地将系统转向了目标,而无法考虑的基线,这些基线无法考虑。受信任的域或状态估计错误可能不安全。
translated by 谷歌翻译
在本文中,我们在局部不同的牵引条件下解决了处理限制的运动规划和控制问题。我们提出了一种新的解决方案方法,其中通过源自预测摩擦估计来表示预测地平线上的牵引变化。在后退地平线时装解决了约束的有限时间最佳控制问题,施加了这些时变的约束。此外,我们的方法具有集成的采样增强程序,该过程解决了对突然约束改变而产生的局部最小值的不可行性和敏感性的问题,例如,由于突然的摩擦变化。我们在一系列临界情景中验证了沃尔沃FH16重型车辆的提议算法。实验结果表明,通过确保计划运动的动态可行性,通过确保高牵引利用时,牵引自适应运动规划和控制改善了避免事故的车辆的能力,既通过适应低局部牵引。
translated by 谷歌翻译
在本文中,我们提出了一种在动态环境中进行多动能计划的新方法。环境被表示为时间占用网格,它赋予了所有障碍的当前以及未来/预测状态。该方法基于以前的安全走廊生成和多旋转计划的工作,以避免移动和静态障碍。它首先生成了目标的全球途径,该途径没有考虑到环境的动态方面。然后,我们使用时间安全走廊来生成机器人将来可以在离散瞬间进入的安全空间。最后,我们在优化公式中使用了时间安全走廊,该公式说明了多电流动力学以及所有障碍,以生成由多旋翼控制器执行的轨迹。我们在模拟中显示了我们方法的性能。
translated by 谷歌翻译
本研究提出了一种具有动态障碍物和不均匀地形的部分可观察环境中的BipeDal运动的安全任务和运动计划(夯实)的分层综合框架。高级任务规划师采用线性时间逻辑(LTL),用于机器人及其环境之间的反应游戏合成,并为导航安全和任务完成提供正式保证。为了解决环境部分可观察性,在高级导航计划者采用信仰抽象,以估计动态障碍的位置。因此,合成的动作规划器向中级运动规划器发送一组运动动作,同时基于运动过程的阶数模型(ROM)结合从安全定理提取的安全机置规范。运动计划程序采用ROM设计安全标准和采样算法,以生成准确跟踪高级动作的非周期性运动计划。为了解决外部扰动,本研究还调查了关键帧运动状态的安全顺序组成,通过可达性分析实现了对外部扰动的强大转变。最终插值一组基于ROM的超参数,以设计由轨迹优化生成的全身运动机器,并验证基于ROM的可行部署,以敏捷机器人设计的20多个自由的Cassie机器人。
translated by 谷歌翻译
基于屏障函数的控制证书一直是一个强大的工具,可能为动态系统生成可能的安全控制策略。但是,基于屏障证书的现有方法通常用于具有可微差动态的白盒系统,这使得它们可以不适用于系统是黑盒的许多实用应用,并且不能准确地建模。另一方面,黑盒系统的无模型加强学习(RL)方法缺乏安全保证和低采样效率。在本文中,我们提出了一种新的方法,可以为黑盒动态系​​统学习安全控制政策和屏障证书,而无需准确的系统模型。我们的方法即使在黑盒式动态系统是不可差分的情况下,我们也可以重新设计损耗函数以反向传播梯度对控制策略,并且我们表明安全证书在黑盒系统上保持。仿真的经验结果表明,与最先进的黑匣子安全控制方法相比,我们的方法可以通过实现近100%的安全性和目标来实现近100%的安全性和目标达到速度。我们的学习代理商也可以在保持原始性能的同时概括取消观察方案。源代码可以在https://github.com/zengyi-qin/bcbf找到。
translated by 谷歌翻译
稳定性和安全性是成功部署自动控制系统的关键特性。作为一个激励示例,请考虑在复杂的环境中自动移动机器人导航。概括到不同操作条件的控制设计需要系统动力学模型,鲁棒性建模错误以及对安全\ newzl {约束}的满意度,例如避免碰撞。本文开发了一个神经普通微分方程网络,以从轨迹数据中学习哈密顿系统的动态。学识渊博的哈密顿模型用于合成基于能量的被动性控制器,并分析其\ emph {鲁棒性},以在学习模型及其\ emph {Safety}中对环境施加的约束。考虑到系统的所需参考路径,我们使用虚拟参考调查员扩展了设计,以实现跟踪控制。州长国家是一个调节点,沿参考路径移动,平衡系统能级,模型不确定性界限以及违反安全性的距离,以确保稳健性和安全性。我们的哈密顿动力学学习和跟踪控制技术在\修订后的{模拟的己谐和四型机器人}在混乱的3D环境中导航。
translated by 谷歌翻译
我们向连续状态马尔可夫决策过程(MDP)提出了一种扩散近似方法,该方法可用于解决非结构化的越野环境中的自主导航和控制。与呈现完全已知的状态转换模型的大多数决策定理计划框架相比,我们设计了一种方法,该方法消除了这种强烈假设,这些假设通常非常难以在现实中工程师。我们首先采用价值函数的二阶泰勒扩展。然后通过部分微分方程近似贝尔曼的最优性方程,其仅依赖于转换模型的第一和第二矩。通过组合价值函数的内核表示,然后设计一种有效的策略迭代算法,其策略评估步骤可以表示为特征的方程式的线性系统,其特征是由有限组支持状态。我们首先通过大量的仿真以2D美元的$ 2D $避让和2.5d $地形导航问题进行验证。结果表明,拟议的方法在几个基线上导致了卓越的性能。然后,我们开发一个系统,该系统将我们的决策框架整合,与船上感知,并在杂乱的室内和非结构化的户外环境中进行现实世界的实验。物理系统的结果进一步展示了我们在挑战现实世界环境中的方法的适用性。
translated by 谷歌翻译
Robots such as autonomous vehicles and assistive manipulators are increasingly operating in dynamic environments and close physical proximity to people. In such scenarios, the robot can leverage a human motion predictor to predict their future states and plan safe and efficient trajectories. However, no model is ever perfect -- when the observed human behavior deviates from the model predictions, the robot might plan unsafe maneuvers. Recent works have explored maintaining a confidence parameter in the human model to overcome this challenge, wherein the predicted human actions are tempered online based on the likelihood of the observed human action under the prediction model. This has opened up a new research challenge, i.e., \textit{how to compute the future human states online as the confidence parameter changes?} In this work, we propose a Hamilton-Jacobi (HJ) reachability-based approach to overcome this challenge. Treating the confidence parameter as a virtual state in the system, we compute a parameter-conditioned forward reachable tube (FRT) that provides the future human states as a function of the confidence parameter. Online, as the confidence parameter changes, we can simply query the corresponding FRT, and use it to update the robot plan. Computing parameter-conditioned FRT corresponds to an (offline) high-dimensional reachability problem, which we solve by leveraging recent advances in data-driven reachability analysis. Overall, our framework enables online maintenance and updates of safety assurances in human-robot interaction scenarios, even when the human prediction model is incorrect. We demonstrate our approach in several safety-critical autonomous driving scenarios, involving a state-of-the-art deep learning-based prediction model.
translated by 谷歌翻译
We present an approach for safe trajectory planning, where a strategic task related to autonomous racing is learned sample-efficient within a simulation environment. A high-level policy, represented as a neural network, outputs a reward specification that is used within the cost function of a parametric nonlinear model predictive controller (NMPC). By including constraints and vehicle kinematics in the NLP, we are able to guarantee safe and feasible trajectories related to the used model. Compared to classical reinforcement learning (RL), our approach restricts the exploration to safe trajectories, starts with a good prior performance and yields full trajectories that can be passed to a tracking lowest-level controller. We do not address the lowest-level controller in this work and assume perfect tracking of feasible trajectories. We show the superior performance of our algorithm on simulated racing tasks that include high-level decision making. The vehicle learns to efficiently overtake slower vehicles and to avoid getting overtaken by blocking faster vehicles.
translated by 谷歌翻译
By utilizing only depth information, the paper introduces a novel but efficient local planning approach that enhances not only computational efficiency but also planning performances for memoryless local planners. The sampling is first proposed to be based on the depth data which can identify and eliminate a specific type of in-collision trajectories in the sampled motion primitive library. More specifically, all the obscured primitives' endpoints are found through querying the depth values and excluded from the sampled set, which can significantly reduce the computational workload required in collision checking. On the other hand, we furthermore propose a steering mechanism also based on the depth information to effectively prevent an autonomous vehicle from getting stuck when facing a large convex obstacle, providing a higher level of autonomy for a planning system. Our steering technique is theoretically proved to be complete in scenarios of convex obstacles. To evaluate effectiveness of the proposed DEpth based both Sampling and Steering (DESS) methods, we implemented them in the synthetic environments where a quadrotor was simulated flying through a cluttered region with multiple size-different obstacles. The obtained results demonstrate that the proposed approach can considerably decrease computing time in local planners, where more trajectories can be evaluated while the best path with much lower cost can be found. More importantly, the success rates calculated by the fact that the robot successfully navigated to the destinations in different testing scenarios are always higher than 99.6% on average.
translated by 谷歌翻译
Reach-避免最佳控制问题,其中系统必须在保持某些目标条件的同时保持清晰的不可接受的故障模式,是自主机器人系统的安全和活力保证的核心,但它们的确切解决方案是复杂的动态和环境的难以解决。最近的钢筋学习方法的成功与绩效目标大致解决最佳控制问题,使其应用​​于认证问题有吸引力;然而,加固学习中使用的拉格朗日型客观不适合编码时间逻辑要求。最近的工作表明,在将加强学习机械扩展到安全型问题时,其目标不是总和,但随着时间的推移最小(或最大)。在这项工作中,我们概括了加强学习制定,以处理覆盖范围的所有最佳控制问题。我们推出了一个时间折扣 - 避免了收缩映射属性的贝尔曼备份,并证明了所得达到避免Q学习算法在类似条件下会聚到传统的拉格朗郎类型问题,从而避免任意紧凑的保守近似值放。我们进一步证明了这种配方利用深度加强学习方法,通过将近似解决方案视为模型预测监督控制框架中的不受信任的oracles来保持零违规保证。我们评估我们在一系列非线性系统上的提出框架,验证了对分析和数值解决方案的结果,并通过Monte Carlo仿真在以前的棘手问题中。我们的结果为一系列基于学习的自治行为开放了大门,具有机器人和自动化的应用。有关代码和补充材料,请参阅https://github.com/saferoboticslab/safett_rl。
translated by 谷歌翻译
本文介绍了一个新的在线多代理轨迹规划算法,可确保在杂乱的环境中产生安全,动态可行的轨迹。所提出的算法利用线性安全走廊(LSC)来制定分布式轨迹优化问题,只有可行的约束,因此它不采用松弛变量或软限制以避免优化失败。我们采用基于优先的目标规划方法来防止僵局而无需额外的程序来确定要屈服的机器人。所提出的算法可以平均将60个代理的轨迹平均每代理使用英特尔I7笔记本电脑计算60个代理,并与基于软限制的基线相比,显示了类似的飞行距离和距离。我们核实所提出的方法可以在随机森林和室内空间中没有僵局达到目标,并且我们通过在迷宫状环境中使用10个时段的真正飞行试验验证了所提出的算法的安全性和可操作性。
translated by 谷歌翻译