将四型人降落在倾斜的表面上是一个具有挑战性的动作。任何倾斜着陆轨迹的最终状态都不是平衡,这排除了大多数常规控制方法的使用。我们提出了一种深入的强化学习方法,以设计倾斜表面的自动着陆控制器。使用具有稀疏奖励和量身定制的课程学习方法的近端政策优化(PPO)算法,可以在不到90分钟的标准笔记本电脑上培训倾斜的着陆政策。然后,该政策直接采用真正的Crazyflie 2.1四型四面管,并成功地在飞行舞台上执行了真正的倾向着陆。单个策略评估大约需要2.5 \,MS,这使其适用于四型在四面体上的未来嵌入式实现。
translated by 谷歌翻译
由于非线性动力学,执行器约束和耦合的纵向和横向运动,部分地,固定翼无人驾驶飞行器(无人机)的姿态控制是一个困难的控制问题。目前的最先进的自动驾驶仪基于线性控制,因此有限于其有效性和性能。深度加强学习(DRL)是一种通过与受控系统的交互自动发现最佳控制法的机器学习方法,可以处理复杂的非线性动态。我们在本文中展示DRL可以成功学习直接在原始非线性动态上运行的固定翼UAV的态度控制,需要短至三分钟的飞行数据。我们最初在仿真环境中培训我们的模型,然后在飞行测试中部署无人机的学习控制器,向最先进的ArduplaneProportional-Integry-artivation(PID)姿态控制器的表现展示了可比的性能,而无需进一步的在线学习。为了更好地理解学习控制器的操作,我们呈现了对其行为的分析,包括与现有良好调整的PID控制器的比较。
translated by 谷歌翻译
本文解决了开发一种用于垂直起飞和降落(VTOL)无人驾驶飞机(UAV)自动船舶登陆算法的问题,仅使用无人机中的单眼相机进行跟踪和本地化。船舶着陆是一项具有挑战性的任务,这是由于较小的着陆空间,六个自由度船甲板运动,定位的视觉参考有限以及诸如风阵等的对抗环境条件。我们首先开发了一种计算机视觉算法,该算法估计了使用无人机上的单眼视觉摄像头的图像流在着陆平台上在降落平台上的地平线参考栏的相对位置。我们的方法是由实际的船舶着陆程序动机,然后是海军直升机飞行员在跟踪视觉提示的地平线参考栏时的动机。然后,我们开发了一种强大的增强学习(RL)算法,即使在存在诸如风阵的对抗环境条件的情况下,也可以控制无人机朝着着陆平台。我们证明了与基准非线性PID控制方法相比,我们的算法的性能优越自由(DOF)甲板运动。
translated by 谷歌翻译
深度加强学习(RL)使得可以使用神经网络作为功能近似器来解决复杂的机器人问题。然而,在从一个环境转移到另一个环境时,在普通环境中培训的政策在泛化方面受到影响。在这项工作中,我们使用强大的马尔可夫决策过程(RMDP)来训练无人机控制策略,这将思想与强大的控制和RL相结合。它选择了悲观优化,以处理从一个环境到另一个环境的策略转移之间的潜在间隙。训练有素的控制策略是关于四转位位置控制的任务。 RL代理商在Mujoco模拟器中培训。在测试期间,使用不同的环境参数(培训期间看不见)来验证训练策略的稳健性,以从一个环境转移到另一个环境。强大的政策在这些环境中表现出标准代理,表明增加的鲁棒性增加了一般性,并且可以适应非静止环境。代码:https://github.com/adipandas/gym_multirotor
translated by 谷歌翻译
在这项工作中,我们表明,可以在模拟中完全使用加强学习进行培训低级控制策略,然后,在Quadrotor机器人上部署它们而不使用真实数据进行微调。为了渲染零拍策略转移可行,我们应用模拟优化以缩小现实差距。我们的神经网络的策略仅使用车载数据,并完全在嵌入式无人机硬件上运行。在广泛的真实实验中,我们比较三种不同的控制结构,范围从低级脉冲宽度调制的电机命令到基于嵌套比例 - 积分衍生物控制器的高级姿态控制。我们的实验表明,利用加固学习培训的低级控制器需要比更高级别的控制策略更准确的模拟。
translated by 谷歌翻译
从意外的外部扰动中恢复的能力是双模型运动的基本机动技能。有效的答复包括不仅可以恢复平衡并保持稳定性的能力,而且在平衡恢复物质不可行时,也可以保证安全的方式。对于与双式运动有关的机器人,例如人形机器人和辅助机器人设备,可帮助人类行走,设计能够提供这种稳定性和安全性的控制器可以防止机器人损坏或防止伤害相关的医疗费用。这是一个具有挑战性的任务,因为它涉及用触点产生高维,非线性和致动系统的高动态运动。尽管使用基于模型和优化方法的前进方面,但诸如广泛领域知识的要求,诸如较大的计算时间和有限的动态变化的鲁棒性仍然会使这个打开问题。在本文中,为了解决这些问题,我们开发基于学习的算法,能够为两种不同的机器人合成推送恢复控制政策:人形机器人和有助于双模型运动的辅助机器人设备。我们的工作可以分为两个密切相关的指示:1)学习人形机器人的安全下降和预防策略,2)使用机器人辅助装置学习人类的预防策略。为实现这一目标,我们介绍了一套深度加强学习(DRL)算法,以学习使用这些机器人时提高安全性的控制策略。
translated by 谷歌翻译
Legged robots pose one of the greatest challenges in robotics. Dynamic and agile maneuvers of animals cannot be imitated by existing methods that are crafted by humans. A compelling alternative is reinforcement learning, which requires minimal craftsmanship and promotes the natural evolution of a control policy. However, so far, reinforcement learning research for legged robots is mainly limited to simulation, and only few and comparably simple examples have been deployed on real systems. The primary reason is that training with real robots, particularly with dynamically balancing systems, is complicated and expensive. In the present work, we report a new method for training a neural network policy in simulation and transferring it to a state-of-the-art legged system, thereby we leverage fast, automated, and cost-effective data generation schemes. The approach is applied to the ANYmal robot, a sophisticated medium-dog-sized quadrupedal system. Using policies trained in simulation, the quadrupedal machine achieves locomotion skills that go beyond what had been achieved with prior methods: ANYmal is capable of precisely and energy-efficiently following high-level body velocity commands, running faster than ever before, and recovering from falling even in complex configurations.
translated by 谷歌翻译
策略搜索和模型预测控制〜(MPC)是机器人控制的两个不同范式:策略搜索具有使用经验丰富的数据自动学习复杂策略的强度,而MPC可以使用模型和轨迹优化提供最佳控制性能。开放的研究问题是如何利用并结合两种方法的优势。在这项工作中,我们通过使用策略搜索自动选择MPC的高级决策变量提供答案,这导致了一种新的策略搜索 - 用于模型预测控制框架。具体地,我们将MPC作为参数化控制器配制,其中难以优化的决策变量表示为高级策略。这种制定允许以自我监督的方式优化政策。我们通过专注于敏捷无人机飞行中的具有挑战性的问题来验证这一框架:通过快速的盖茨飞行四轮车。实验表明,我们的控制器在模拟和现实世界中实现了鲁棒和实时的控制性能。拟议的框架提供了合并学习和控制的新视角。
translated by 谷歌翻译
二次运动的准确轨迹跟踪控制对于在混乱环境中的安全导航至关重要。但是,由于非线性动态,复杂的空气动力学效应和驱动约束,这在敏捷飞行中具有挑战性。在本文中,我们通过经验比较两个最先进的控制框架:非线性模型预测控制器(NMPC)和基于差异的控制器(DFBC),通过以速度跟踪各种敏捷轨迹,最多20 m/s(即72 km/h)。比较在模拟和现实世界环境中进行,以系统地评估这两种方法从跟踪准确性,鲁棒性和计算效率的方面。我们以更高的计算时间和数值收敛问题的风险来表明NMPC在跟踪动态不可行的轨迹方面的优势。对于这两种方法,我们还定量研究了使用增量非线性动态反演(INDI)方法添加内环控制器的效果,以及添加空气动力学阻力模型的效果。我们在世界上最大的运动捕获系统之一中进行的真实实验表明,NMPC和DFBC的跟踪误差降低了78%以上,这表明有必要使用内环控制器和用于敏捷轨迹轨迹跟踪的空气动力学阻力模型。
translated by 谷歌翻译
我们展示了通过大规模多代理端到端增强学习的大射击可转移到真正的四轮压力机的无人驾驶群体控制器的可能性。我们培训由神经网络参数化的政策,该政策能够以完全分散的方式控制群体中的各个无人机。我们的政策,在具有现实的四轮流物理学的模拟环境中训练,展示了先进的植绒行为,在紧张的地层中执行侵略性的操作,同时避免彼此的碰撞,破裂和重新建立地层,以避免与移动障碍的碰撞,并有效地协调追求障碍,并有效地协调追求逃避任务。在模拟中,我们分析了培训制度的不同模型架构和参数影响神经群的最终表现。我们展示了在模拟中学习的模型的成功部署到高度资源受限的物理四体体执行站保持和目标交换行为。在Propers网站上提供代码和视频演示,在https://sites.google.com/view/swarm-rl上获得。
translated by 谷歌翻译
机器人系统的控制设计很复杂,通常需要解决优化才能准确遵循轨迹。在线优化方法(例如模型预测性控制(MPC))已被证明可以实现出色的跟踪性能,但需要高计算能力。相反,基于学习的离线优化方法,例如加固学习(RL),可以在机器人上快速有效地执行,但几乎不匹配MPC在轨迹跟踪任务中的准确性。在具有有限计算的系统(例如航空车)中,必须在执行时间有效的精确控制器。我们提出了一种分析策略梯度(APG)方法来解决此问题。 APG通过在跟踪误差上以梯度下降的速度训练控制器来利用可区分的模拟器的可用性。我们解决了通过课程学习和实验经常在广泛使用的控制基准,Cartpole和两个常见的空中机器人,一个四极管和固定翼无人机上进行的训练不稳定性。在跟踪误差方面,我们提出的方法优于基于模型和无模型的RL方法。同时,它达到与MPC相似的性能,同时需要少于数量级的计算时间。我们的工作为APG作为机器人技术的有前途的控制方法提供了见解。为了促进对APG的探索,我们开放代码并在https://github.com/lis-epfl/apg_traightory_tracking上提供。
translated by 谷歌翻译
我们解决了在存在障碍物的情况下,通过一系列航路点来解决四肢飞行的最低时间飞行问题,同时利用了完整的四型动力学。早期作品依赖于简化的动力学或多项式轨迹表示,而这些动力学或多项式轨迹表示,这些表示没有利用四四光的全部执行器电位,因此导致了次优溶液。最近的作品可以计划最小的时间轨迹;然而,轨迹是通过无法解释障碍的控制方法执行的。因此,由于模型不匹配和机上干扰,成功执行此类轨迹很容易出现错误。为此,我们利用深厚的强化学习和经典的拓扑路径计划来训练强大的神经网络控制器,以在混乱的环境中为最少的四型四型飞行。由此产生的神经网络控制器表现出比最新方法相比,高达19%的性能要高得多。更重要的是,博学的政策同时在线解决了计划和控制问题,以解决干扰,从而实现更高的鲁棒性。因此,提出的方法在没有碰撞的情况下实现了100%的最低时间策略的成功率,而传统的计划和控制方法仅获得40%。所提出的方法在模拟和现实世界中均已验证,四速速度高达42公里/小时,加速度为3.6g。
translated by 谷歌翻译
我们开发了一个综合指导和控制系统,与稳定的寻求者和着陆现场检测软件可以实现精确和安全的行星着陆。寻求者通过调节寻求头和方位角来追踪指定的着陆部位,以将指定的着陆位点置于传感器视野中。指定着陆部位的搜索器角度,关闭速度和范围用于制定由引导和控制系统使用的速度场,以在指定的着陆位点实现安全着陆。指导和控制系统将此速度场,姿态和旋转速度直接映射到着陆器四个发动机的指令推力向量。指导和控制系统被实施为使用钢筋元学习优化的策略。我们证明了引导和控制系统在动力下降期间与多重转移兼容,并且对寻求滞后,致动器滞后和劣化以及通过燃料消耗引起的质量变化中心是鲁棒的。我们概述了几种操作概念,包括使用预先复位的着陆灯垒的方法。
translated by 谷歌翻译
With the development of deep representation learning, the domain of reinforcement learning (RL) has become a powerful learning framework now capable of learning complex policies in high dimensional environments. This review summarises deep reinforcement learning (DRL) algorithms and provides a taxonomy of automated driving tasks where (D)RL methods have been employed, while addressing key computational challenges in real world deployment of autonomous driving agents. It also delineates adjacent domains such as behavior cloning, imitation learning, inverse reinforcement learning that are related but are not classical RL algorithms. The role of simulators in training agents, methods to validate, test and robustify existing solutions in RL are discussed.
translated by 谷歌翻译
现在,最先进的强化学习能够在模拟中学习双皮亚机器人的多功能运动,平衡和推送能力。然而,现实差距大多被忽略了,模拟结果几乎不会转移到真实硬件上。在实践中,它是不成功的,因为物理学过度简化,硬件限制被忽略,或者不能保证规律性,并且可能会发生意外的危险运动。本文提出了一个强化学习框架,该框架能够学习以平稳的开箱即用向现实的转移,仅需要瞬时的本体感受观察,可以学习强大的站立式恢复。通过结合原始的终止条件和政策平滑度调节,我们使用没有记忆力或观察历史的政策实现了稳定的学习,SIM转移和安全性。然后使用奖励成型来提供有关如何保持平衡的见解。我们展示了其在下LIMB医学外骨骼Atalante中的现实表现。
translated by 谷歌翻译
将无人机应用扩展到复杂任务的研究需要稳定的控制框架。最近,在许多研究中,对机器人控制以完成复杂的任务进行了深入的强化学习(RL)算法。不幸的是,由于难以解释博学的政策和缺乏稳定保证,尤其是对于诸如攀岩无人机之类的复杂任务,因此深入的RL算法可能不适合直接部署到现实世界的机器人平台中。本文提出了一种新型的混合体系结构,该结构通过使用无模型的Deep RL算法学习的强大策略来增强名义控制器。所提出的架构采用不确定性感受的控制搅拌机来保留名义控制器的保证稳定性,同时使用学习策略的扩展性能。该政策在模拟环境中进行了数千个域随机化的培训,以实现多样化的不确定性的稳健性能。通过现实世界实验验证了所提出的方法的性能,然后与传统的控制器和经过香草深RL算法训练的基于最新的学习控制器进行了比较。
translated by 谷歌翻译
在这项工作中,我们为软机器人蛇提供了一种基于学习的目标跟踪控制方法。受到生物蛇的启发,我们的控制器由两个关键模块组成:用于学习靶向轨迹行为的增强学习(RL)模块,给出了软蛇机器人的随机动力学,以及带有Matsuoka振荡器的中央模式生成器(CPG)系统,用于产生稳定而多样的运动模式。基于提议的框架,我们全面讨论了软蛇机器人的可操作性,包括在其蛇形运动期间的转向和速度控制。可以将这种可操作性映射到CPG系统振荡模式的控制中。通过对Matsuoka CPG系统振荡性能的理论分析,这项工作表明,实现我们软蛇机器人的自由移动性的关键是正确限制和控制Matsuoka CpG系统的某些系数比率。基于此分析,我们系统地制定了CPG系统的可控系数,供RL代理运行。通过实验验证,我们表明,在模拟环境中学习的控制政策可以直接应用于控制我们的真正的蛇机器人以执行目标跟踪任务,而不管模拟与现实世界之间的物理环境差距如何。实验结果还表明,与我们先前的方法和基线RL方法(PPO)相比,我们的方法对SIM到现实过渡的适应性和鲁棒性得到了显着改善。
translated by 谷歌翻译
从任意堕落状态中起床是一种基本的人类技能。现有的学习这种技能的方法通常会产生高度动态和不稳定的起床动作,这不像人类的起床策略,或者基于跟踪记录的人类起床运动。在本文中,我们提出了一种使用强化学习的分阶段方法,而无需求助于运动捕获数据。该方法首先利用了强大的字符模型,从而有助于发现解决方案模式。然后,第二阶段学会了调整控制策略,以逐步与角色的较弱版本一起使用。最后,第三阶段学习控制政策,这些政策可以以较慢的速度重现较弱的起床动作。我们表明,在多个运行中,该方法可以发现各种各样的起床策略,并以各种速度执行它们。结果通常会产生采用最终站立策略的策略,这些策略是从所有初始状态中看到的恢复动作所共有的。但是,我们还发现了对俯卧和仰卧初始堕落状态的不同策略的政策。学识渊博的起床控制策略通常具有明显的静态稳定性,即,在起床运动过程中,它们可以在各个点停下来。我们进一步测试了新的限制场景的方法,例如在演员表中有一条腿和手臂。
translated by 谷歌翻译
我们提出了通过现实的模拟和现实世界实验来支持可复制研究的多运动无人机控制(UAV)和估计系统。我们提出了一个独特的多帧本地化范式,用于同时使用多个传感器同时估算各种参考框架中的无人机状态。该系统可以在GNSS和GNSS贬低的环境中进行复杂的任务,包括室外室内过渡和执行冗余估计器,以备份不可靠的本地化源。提出了两种反馈控制设计:一个用于精确和激进的操作,另一个用于稳定和平稳的飞行,并进行嘈杂的状态估计。拟议的控制和估计管道是在3D中使用Euler/Tait-Bryan角度表示的,而无需使用Euler/Tait-Bryan角度表示。取而代之的是,我们依靠旋转矩阵和一个新颖的基于标题的惯例来代表标准多电流直升机3D中的一个自由旋转自由度。我们提供了积极维护且有据可查的开源实现,包括对无人机,传感器和本地化系统的现实模拟。拟议的系统是多年应用系统,空中群,空中操纵,运动计划和遥感的多年研究产物。我们所有的结果都得到了现实世界中的部署的支持,该系统部署将系统塑造成此处介绍的表单。此外,该系统是在我们团队从布拉格的CTU参与期间使用的,该系统在享有声望的MBZIRC 2017和2020 Robotics竞赛中,还参加了DARPA SubT挑战赛。每次,我们的团队都能在世界各地最好的竞争对手中获得最高位置。在每种情况下,挑战都促使团队改善系统,并在紧迫的期限内获得大量高质量的体验。
translated by 谷歌翻译
结肠镜检查的柔性内窥镜由于其固有的复杂性而产生了一些局限性,导致患者不适和缺乏临床医生的直觉。机器人设备和自主控制代表了一种可行的解决方案,以减少内镜医生的工作量和训练时间,同时改善整体程序结果。自主内窥镜控制的先前工作使用启发式政策,将其概括限制在非结构化和高度可变形的结肠环境中,需要频繁进行人类干预。这项工作提出了一种基于图像的内窥镜控制,使用深钢筋学习,称为深度视觉运动控制(DVC),以在结肠道的复杂部分中表现出适应性行为。 DVC学习内窥镜图像与内窥镜的控制信号之间的映射。对20位专家胃肠道内镜医生进行的首次用户研究是为了将其导航性能与使用现实的虚拟模拟器进行比较的DVC策略。结果表明,DVC在几个评估参数上显示出同等的性能,更安全。此外,与最先进的启发式控制政策相比,对20名新手参与者进行了第二次用户研究,以证明人类的监督更容易。对结肠镜检查程序的无缝监督将使干预主义者能够专注于医疗决策,而不是内窥镜的控制问题。
translated by 谷歌翻译