本文提供了一个完整的管道,用于学习移动机器人的连续运动控制策略,只有可用的机器人 - 泰林相互作用的非差异物理模拟器才能提供。机器人的多模式状态估计也很复杂且难以模拟,因此我们同时学习了一个生成模型,该模型可以完善模拟器输出。我们提出了一个粗到精细的学习范式,其中粗略的运动计划与模仿学习和政策转移到真正的机器人。该政策通过生成模型共同优化。我们在一批实验中评估了现实世界平台上的方法。
translated by 谷歌翻译
我们向连续状态马尔可夫决策过程(MDP)提出了一种扩散近似方法,该方法可用于解决非结构化的越野环境中的自主导航和控制。与呈现完全已知的状态转换模型的大多数决策定理计划框架相比,我们设计了一种方法,该方法消除了这种强烈假设,这些假设通常非常难以在现实中工程师。我们首先采用价值函数的二阶泰勒扩展。然后通过部分微分方程近似贝尔曼的最优性方程,其仅依赖于转换模型的第一和第二矩。通过组合价值函数的内核表示,然后设计一种有效的策略迭代算法,其策略评估步骤可以表示为特征的方程式的线性系统,其特征是由有限组支持状态。我们首先通过大量的仿真以2D美元的$ 2D $避让和2.5d $地形导航问题进行验证。结果表明,拟议的方法在几个基线上导致了卓越的性能。然后,我们开发一个系统,该系统将我们的决策框架整合,与船上感知,并在杂乱的室内和非结构化的户外环境中进行现实世界的实验。物理系统的结果进一步展示了我们在挑战现实世界环境中的方法的适用性。
translated by 谷歌翻译
本文介绍了一个混合在线的部分可观察到的马尔可夫决策过程(POMDP)计划系统,该系统在存在环境中其他代理商引入的多模式不确定性的情况下解决了自主导航的问题。作为一个特别的例子,我们考虑了密集的行人和障碍物中的自主航行问题。该问题的流行方法首先使用完整的计划者(例如,混合A*)生成一条路径,具有对不确定性的临时假设,然后使用基于在线树的POMDP求解器来解决问题的不确定性,并控制问题的有限方面(即沿着路径的速度)。我们提出了一种更有能力和响应的实时方法,使POMDP规划师能够控制更多的自由度(例如,速度和标题),以实现更灵活,更有效的解决方案。这种修改大大扩展了POMDP规划师必须推荐的国家空间区域,从而大大提高了在实时控制提供的有限计算预算中找到有效的推出政策的重要性。我们的关键见解是使用多Query运动计划技术(例如,概率路线图或快速行进方法)作为先验,以快速生成在有限的地平线搜索中POMDP规划树可能达到的每个状态的高效推出政策。我们提出的方法产生的轨迹比以前的方法更安全,更有效,即使在较长的计划范围内密集拥挤的动态环境中。
translated by 谷歌翻译
策略搜索和模型预测控制〜(MPC)是机器人控制的两个不同范式:策略搜索具有使用经验丰富的数据自动学习复杂策略的强度,而MPC可以使用模型和轨迹优化提供最佳控制性能。开放的研究问题是如何利用并结合两种方法的优势。在这项工作中,我们通过使用策略搜索自动选择MPC的高级决策变量提供答案,这导致了一种新的策略搜索 - 用于模型预测控制框架。具体地,我们将MPC作为参数化控制器配制,其中难以优化的决策变量表示为高级策略。这种制定允许以自我监督的方式优化政策。我们通过专注于敏捷无人机飞行中的具有挑战性的问题来验证这一框架:通过快速的盖茨飞行四轮车。实验表明,我们的控制器在模拟和现实世界中实现了鲁棒和实时的控制性能。拟议的框架提供了合并学习和控制的新视角。
translated by 谷歌翻译
随着腿部机器人和嵌入式计算都变得越来越有能力,研究人员已经开始专注于这些机器人的现场部署。在非结构化环境中的强大自治需要对机器人周围的世界感知,以避免危害。但是,由于处理机车动力学所需的复杂规划人员和控制器,因此在网上合并在线的同时在线保持敏捷运动对腿部机器人更具挑战性。该报告将比较三种最新的感知运动方法,并讨论可以使用视觉来实现腿部自主权的不同方式。
translated by 谷歌翻译
机器人导航传统上依赖于构建用于计划无碰撞轨迹的显式映射到所需的目标。在可变形的复杂地形中,使用基于几何的方法可以不能找到由于错误的可变形物体而像刚性和不可能的那样的路径。相反,我们学习预测地形区域的可迁移性以及更喜欢更容易导航的区域的估计(例如,小草上的小灌木)。与规范动态模型相比,我们而不是预测碰撞,而不是在实现的错误上回归。我们用一个政策方法训练,导致使用跨模拟和现实世界的培训数据分裂的50分钟的成功导航政策。我们基于学习的导航系统是一个示例高效的短期计划,我们在通过包括草原和森林的各种地形导航的清晰路径哈士摩克
translated by 谷歌翻译
尽管腿部机器人运动取得了进展,但在未知环境中的自主导航仍然是一个空旷的问题。理想情况下,导航系统在不确定性下在安全限制内运行时,利用机器人的运动功能的全部潜力。机器人必须感知和分析周围地形的遍历性,这取决于硬件,运动控制和地形特性。它可能包含有关穿越地形所需的风险,能量或时间消耗的信息。为了避免手工制作的遍历成本功能,我们建议通过使用物理模拟器在随机生成的地形上模拟遍历的遍历策略,以收集有关机器人和运动策略的遍历性信息。在现实中使用的相同的运动策略并行控制了数千个机器人,以获得57年的现实运动体验。对于在Real机器人上的部署,培训了一个稀疏的卷积网络,以预测模拟的遍历性成本,该成本是根据已部署的运动策略量身定制的,它是从环境的完全几何表示,以3D素体占用图的形式。该表示避免了对常用的高程图的需求,在存在悬垂障碍物以及多层或低天花板方案的情况下,这些图形图很容易出错。在各种室内和自然环境中,为腿部机器人Anymal的路径计划证明了拟议的遍历性预测网络的有效性。
translated by 谷歌翻译
本文介绍了使用腿收割机进行精密收集任务的集成系统。我们的收割机在狭窄的GPS拒绝了森林环境中的自主导航和树抓取了一项挑战性的任务。提出了映射,本地化,规划和控制的策略,并集成到完全自主系统中。任务从使用定制的传感器模块开始使用人员映射感兴趣区域。随后,人类专家选择树木进行收获。然后将传感器模块安装在机器上并用于给定地图内的本地化。规划算法在单路径规划问题中搜索一个方法姿势和路径。我们设计了一个路径,后面的控制器利用腿的收割机的谈判粗糙地形的能力。在达接近姿势时,机器用通用夹具抓住一棵树。此过程重复操作员选择的所有树。我们的系统已经在与树干和自然森林中的测试领域进行了测试。据我们所知,这是第一次在现实环境中运行的全尺寸液压机上显示了这一自主权。
translated by 谷歌翻译
实现有腿机器人潜力的基本挑战之一是产生跨越具有挑战性的地形的计划。必须仔细选择控制操作,以便机器人不会崩溃或滑动。联合空间的高维度使得直接规划从船上感知的低级动作困难,并且控制堆栈不考虑机器人在规划中的低级机制不适合处理细粒度的障碍。处理这一点的一种方法是基于地形特征选择脚步位置。然而,将机器人动力学结合到脚步规划需要大量计算,远远超过准静态案例。在这项工作中,我们介绍了一个基于LSTM的计划框架,了解了使用地形扫描和机器人的动态的可能脚步位置的概率分布,并利用LSTM的顺序性,以找到线性时间的脚步。我们的框架也可以用作加速采样的规划仪的模块。我们在各种不均匀的地形上验证了我们在模拟的单腿料斗上的方法。
translated by 谷歌翻译
本文提出了一种新颖的方法,用于在具有复杂拓扑结构的地下领域的搜索和救援行动中自动合作。作为CTU-Cras-Norlab团队的一部分,拟议的系统在DARPA SubT决赛的虚拟轨道中排名第二。与专门为虚拟轨道开发的获奖解决方案相反,该建议的解决方案也被证明是在现实世界竞争极为严峻和狭窄的环境中飞行的机上实体无人机的强大系统。提出的方法可以使无缝模拟转移的无人机团队完全自主和分散的部署,并证明了其优于不同环境可飞行空间的移动UGV团队的优势。该论文的主要贡献存在于映射和导航管道中。映射方法采用新颖的地图表示形式 - 用于有效的风险意识长距离计划,面向覆盖范围和压缩的拓扑范围的LTVMAP领域,以允许在低频道通信下进行多机器人合作。这些表示形式与新的方法一起在导航中使用,以在一般的3D环境中可见性受限的知情搜索,而对环境结构没有任何假设,同时将深度探索与传感器覆盖的剥削保持平衡。所提出的解决方案还包括一条视觉感知管道,用于在没有专用GPU的情况下在5 Hz处进行四个RGB流中感兴趣的对象的板上检测和定位。除了参与DARPA SubT外,在定性和定量评估的各种环境中,在不同的环境中进行了广泛的实验验证,UAV系统的性能得到了支持。
translated by 谷歌翻译
本文介绍了Cerberus机器人系统系统,该系统赢得了DARPA Subterranean挑战最终活动。出席机器人自主权。由于其几何复杂性,降解的感知条件以及缺乏GPS支持,严峻的导航条件和拒绝通信,地下设置使自动操作变得特别要求。为了应对这一挑战,我们开发了Cerberus系统,该系统利用了腿部和飞行机器人的协同作用,再加上可靠的控制,尤其是为了克服危险的地形,多模式和多机器人感知,以在传感器退化,以及在传感器退化的条件下进行映射以及映射通过统一的探索路径计划和本地运动计划,反映机器人特定限制的弹性自主权。 Cerberus基于其探索各种地下环境及其高级指挥和控制的能力,表现出有效的探索,对感兴趣的对象的可靠检测以及准确的映射。在本文中,我们报告了DARPA地下挑战赛的初步奔跑和最终奖项的结果,并讨论了为社区带来利益的教训所面临的亮点和挑战。
translated by 谷歌翻译
我们提出了一种新颖的户外导航算法,以生成稳定,有效的动作,以将机器人导航到目标。我们使用多阶段的训练管道,并表明我们的模型产生了政策,从而在复杂的地形上导致稳定且可靠的机器人导航。基于近端政策优化(PPO)算法,我们开发了一种新颖的方法来实现户外导航任务的多种功能,即:减轻机器人的漂移,使机器人在颠簸的地形上保持稳定,避免在山丘上攀登,并具有陡峭的山坡,并改变了山坡,并保持了陡峭的高度变化,并使机器人稳定在山坡上,并避免了攀岩地面上的攀登,并避免了机器人的攀岩地形,并避免了机器人的攀岩地形。避免碰撞。我们的培训过程通过引入更广泛的环境和机器人参数以及统一模拟器中LIDAR感知的丰富特征来减轻现实(SIM到现实)差距。我们使用Clearphith Husky和Jackal在模拟和现实世界中评估我们的方法。此外,我们将我们的方法与最先进的方法进行了比较,并表明在现实世界中,它在不平坦的地形上至少提高了30.7%通过防止机器人在高梯度的区域移动,机器人在每个运动步骤处的高程变化。
translated by 谷歌翻译
我们提出了一种奖励预测,基于模型的深度学习方法,具有轨迹约束的视觉关注,用于Mapless,本地视觉导航任务。我们的方法学会在潜伏图像空间中的位置放置视觉注意,这跟踪车辆控制动作引起的轨迹,以提高规划期间的预测精度。注意模型由任务特定的损耗和额外的轨迹约束损失共同优化,允许适应性令人鼓舞的正则化结构,以改善泛化和可靠性。重要的是,视觉注意力应用于潜在特征映射空间而不是原始图像空间,以促进有效的规划。我们在规划低湍流的视觉导航任务中验证了我们的型号,在越野设置和爬坡地区的越野设置和山坡上爬上山坡的轨迹。实验涉及随机程序生成的模拟和现实世界环境。与关注和自我关注替代方案相比,我们发现我们的方法改善了泛化和学习效率。
translated by 谷歌翻译
从意外的外部扰动中恢复的能力是双模型运动的基本机动技能。有效的答复包括不仅可以恢复平衡并保持稳定性的能力,而且在平衡恢复物质不可行时,也可以保证安全的方式。对于与双式运动有关的机器人,例如人形机器人和辅助机器人设备,可帮助人类行走,设计能够提供这种稳定性和安全性的控制器可以防止机器人损坏或防止伤害相关的医疗费用。这是一个具有挑战性的任务,因为它涉及用触点产生高维,非线性和致动系统的高动态运动。尽管使用基于模型和优化方法的前进方面,但诸如广泛领域知识的要求,诸如较大的计算时间和有限的动态变化的鲁棒性仍然会使这个打开问题。在本文中,为了解决这些问题,我们开发基于学习的算法,能够为两种不同的机器人合成推送恢复控制政策:人形机器人和有助于双模型运动的辅助机器人设备。我们的工作可以分为两个密切相关的指示:1)学习人形机器人的安全下降和预防策略,2)使用机器人辅助装置学习人类的预防策略。为实现这一目标,我们介绍了一套深度加强学习(DRL)算法,以学习使用这些机器人时提高安全性的控制策略。
translated by 谷歌翻译
在本文中,我们关注将基于能量的模型(EBM)作为运动优化的指导先验的问题。 EBM是一组神经网络,可以用合适的能量函数参数为参数的GIBBS分布来表示表达概率密度分布。由于其隐含性,它们可以轻松地作为优化因素或运动优化问题中的初始采样分布整合在一起,从而使它们成为良好的候选者,以将数据驱动的先验集成在运动优化问题中。在这项工作中,我们提出了一组所需的建模和算法选择,以使EBMS适应运动优化。我们调查了将其他正规化器在学习EBM中的好处,以将它们与基于梯度的优化器一起使用,并提供一组EBM架构,以学习用于操纵任务的可通用分布。我们提出了多种情况,可以将EBM集成以进行运动优化,并评估学到的EBM的性能,以指导模拟和真实机器人实验的指导先验。
translated by 谷歌翻译
我们提出了一种生成,预测和使用时空占用网格图(SOGM)的方法,该方法嵌入了真实动态场景的未来语义信息。我们提出了一个自动标记的过程,该过程从嘈杂的真实导航数据中创建SOGM。我们使用3D-2D馈电体系结构,经过训练,可以预测SOGM的未来时间步骤,并给定3D激光镜框架作为输入。我们的管道完全是自我监督的,从而为真正的机器人提供了终身学习。该网络由一个3D后端组成,该后端提取丰富的特征并实现了激光镜框架的语义分割,以及一个2D前端,可预测SOGM表示中嵌入的未来信息,从而有可能捕获房地产的复杂性和不确定性世界多代理,多未来的互动。我们还设计了一个导航系统,该导航系统在计划中使用这些预测的SOGM在计划中,之后它们已转变为时空风险图(SRMS)。我们验证导航系统在模拟中的能力,在真实的机器人上对其进行验证,在各种情况下对真实数据进行研究SOGM预测,并提供一种新型的室内3D LIDAR数据集,该数据集在我们的实验中收集,其中包括我们的自动注释。
translated by 谷歌翻译
通过直接将感知输入映射到机器人控制命令中,深入的强化学习(DRL)算法已被证明在机器人导航中有效,尤其是在未知环境中。但是,大多数现有方法忽略导航中的局部最小问题,从而无法处理复杂的未知环境。在本文中,我们提出了第一个基于DRL的导航方法,该方法由具有连续动作空间,自适应向前模拟时间(AFST)的SMDP建模,以克服此问题。具体而言,我们通过修改其GAE来更好地估计SMDP中的策略梯度,改善了指定SMDP问题的分布式近端策略优化(DPPO)算法。我们在模拟器和现实世界中评估了我们的方法。
translated by 谷歌翻译
Legged robots pose one of the greatest challenges in robotics. Dynamic and agile maneuvers of animals cannot be imitated by existing methods that are crafted by humans. A compelling alternative is reinforcement learning, which requires minimal craftsmanship and promotes the natural evolution of a control policy. However, so far, reinforcement learning research for legged robots is mainly limited to simulation, and only few and comparably simple examples have been deployed on real systems. The primary reason is that training with real robots, particularly with dynamically balancing systems, is complicated and expensive. In the present work, we report a new method for training a neural network policy in simulation and transferring it to a state-of-the-art legged system, thereby we leverage fast, automated, and cost-effective data generation schemes. The approach is applied to the ANYmal robot, a sophisticated medium-dog-sized quadrupedal system. Using policies trained in simulation, the quadrupedal machine achieves locomotion skills that go beyond what had been achieved with prior methods: ANYmal is capable of precisely and energy-efficiently following high-level body velocity commands, running faster than ever before, and recovering from falling even in complex configurations.
translated by 谷歌翻译
我们提出并通过实验证明了双层机器人的反应性规划系统,在未开发,具有挑战性的地形上。该系统由低频规划线(5Hz)组成,用于找到渐近最佳路径和高频无功螺纹(300Hz)以适应机器人偏差。规划线程包括:多层本地地图,以计算地形上机器人的拖拉性;任何时间的全向控制Lyapunov函数(CLF),用于快速探索随机树星(RRT *),它会生成一个矢量字段,用于指定节点之间的运动;当最终目标位于当前地图之外时,子目标查找器;和一个有限状态的机器来处理高级任务决策。该系统还包括反应线,以避免在执行路径后用传统的RRT *算法出现的非平滑运动。具有机器人偏差的反应线应对,同时通过矢量字段(由闭环反馈策略定义)消除非平滑运动,其为机器人的步态控制器提供实时控制命令作为瞬时机器人姿势的函数。该系统在Cassie Blue的模拟和实验中进行了各种具有挑战性的户外地形和杂乱的室内场景,这是一个具有20个自由度的双模型机器人。所有实现在C ++中编码了机器人操作系统(ROS),可在https://github.com/umich-bipedlab/clf_reactive_planning_system中获得。
translated by 谷歌翻译
尽管移动操作在工业和服务机器人技术方面都重要,但仍然是一个重大挑战,因为它需要将最终效应轨迹的无缝整合与导航技能以及对长匹马的推理。现有方法难以控制大型配置空间,并导航动态和未知环境。在先前的工作中,我们建议将移动操纵任务分解为任务空间中最终效果的简化运动生成器,并将移动设备分解为训练有素的强化学习代理,以说明移动基础的运动基础,以说明运动的运动可行性。在这项工作中,我们引入了移动操作的神经导航(n $^2 $ m $^2 $),该导航将这种分解扩展到复杂的障碍环境,并使其能够解决现实世界中的广泛任务。最终的方法可以在未探索的环境中执行看不见的长马任务,同时立即对动态障碍和环境变化做出反应。同时,它提供了一种定义新的移动操作任务的简单方法。我们证明了我们提出的方法在多个运动学上多样化的移动操纵器上进行的广泛模拟和现实实验的能力。代码和视频可在http://mobile-rl.cs.uni-freiburg.de上公开获得。
translated by 谷歌翻译