将机器人放置在受控条件外,需要多功能的运动表示,使机器人能够学习新任务并使其适应环境变化。在工作区中引入障碍或额外机器人的位置,由于故障或运动范围限制导致的关节范围的修改是典型的案例,适应能力在安全地执行机器人任务的关键作用。已经提出了代表适应性运动技能的概率动态(PROMP),其被建模为轨迹的高斯分布。这些都是在分析讲道的,可以从少数演示中学习。然而,原始PROMP制定和随后的方法都仅为特定运动适应问题提供解决方案,例如障碍避免,以及普遍的,统一的适应概率方法缺失。在本文中,我们开发了一种用于调整PROMP的通用概率框架。我们统一以前的适应技术,例如,各种类型的避避,通过一个框架,互相避免,在一个框架中,并将它们结合起来解决复杂的机器人问题。另外,我们推导了新颖的适应技术,例如时间上未结合的通量和互相避免。我们制定适应作为约束优化问题,在那里我们最小化适应的分布与原始原始的分布之间的kullback-leibler发散,而我们限制了与不希望的轨迹相关的概率质量为低电平。我们展示了我们在双机器人手臂设置中的模拟平面机器人武器和7-DOF法兰卡 - Emika机器人的若干适应问题的方法。
translated by 谷歌翻译
许多数值优化技术的收敛性对提供给求解器的初始猜测高度敏感。我们提出了一种基于张量方法的方法,以初始化靠近全局Optima的现有优化求解器。该方法仅使用成本函数的定义,不需要访问任何良好解决方案的数据库。我们首先将成本函数(这是任务参数和优化变量的函数)转换为概率密度函数。与将任务参数设置为常数的现有方法不同,我们将它们视为另一组随机变量,并使用替代概率模型近似任务参数的关节概率分布和优化变量。对于给定的任务,我们就给定的任务参数从条件分布中生成样本,并将其用作优化求解器的初始化。由于调节和来自任意密度函数的调节和采样具有挑战性,因此我们使用张量列车分解来获得替代概率模型,我们可以从中有效地获得条件模型和样品。该方法可以为给定任务产生来自不同模式的多个解决方案。我们首先通过将其应用于各种具有挑战性的基准函数来评估该方法以进行数值优化,这些功能很难使用基于梯度的优化求解器以幼稚的初始化来求解,这表明所提出的方法可以生成靠近全局优化的样品,并且来自多种模式。 。然后,我们通过将所提出的方法应用于7-DOF操纵器来证明框架的通用性及其与机器人技术的相关性。
translated by 谷歌翻译
在本文中,我们关注将基于能量的模型(EBM)作为运动优化的指导先验的问题。 EBM是一组神经网络,可以用合适的能量函数参数为参数的GIBBS分布来表示表达概率密度分布。由于其隐含性,它们可以轻松地作为优化因素或运动优化问题中的初始采样分布整合在一起,从而使它们成为良好的候选者,以将数据驱动的先验集成在运动优化问题中。在这项工作中,我们提出了一组所需的建模和算法选择,以使EBMS适应运动优化。我们调查了将其他正规化器在学习EBM中的好处,以将它们与基于梯度的优化器一起使用,并提供一组EBM架构,以学习用于操纵任务的可通用分布。我们提出了多种情况,可以将EBM集成以进行运动优化,并评估学到的EBM的性能,以指导模拟和真实机器人实验的指导先验。
translated by 谷歌翻译
有效推论是一种数学框架,它起源于计算神经科学,作为大脑如何实现动作,感知和学习的理论。最近,已被证明是在不确定性下存在国家估算和控制问题的有希望的方法,以及一般的机器人和人工代理人的目标驱动行为的基础。在这里,我们审查了最先进的理论和对国家估计,控制,规划和学习的积极推断的实现;描述当前的成就,特别关注机器人。我们展示了相关实验,以适应,泛化和稳健性而言说明其潜力。此外,我们将这种方法与其他框架联系起来,并讨论其预期的利益和挑战:使用变分贝叶斯推理具有功能生物合理性的统一框架。
translated by 谷歌翻译
在过去的二十年中,机器人社区见证了各种运动表示的出现,这些动作表示已被广泛使用,尤其是在经常克隆中,以紧凑和概括技能。其中,概率方法由于编码变化,相关性和对新任务条件的适应性的编码而获得了相关位置。但是,由于需要重新优化的参数重视经常需要计算昂贵的操作,因此调节此类原语通常很麻烦。在本文中,我们得出了一个非参数运动原始配方,其中包含空空间投影仪。我们表明,这种公式允许使用计算复杂性O(N2)快速有效地产生运动,而不涉及矩阵反转,其复杂性为O(n3)。这是通过使用零空间来跟踪辅助目标的精度来实现的。使用与时间输入相关的2D示例,我们表明我们的非参数解决方案与最先进的参数方法进行了比较。对于具有高维投入的演示技能,我们表明它也允许在线适应。
translated by 谷歌翻译
工业机器人操纵器(例如柯机)的应用可能需要在具有静态和非静态障碍物组合的环境中有效的在线运动计划。当可用的计算时间受到限制或无法完全产生解决方案时,现有的通用计划方法通常会产生较差的质量解决方案。我们提出了一个新的运动计划框架,旨在在用户定义的任务空间中运行,而不是机器人的工作空间,该框架有意将工作空间一般性交易,以计划和执行时间效率。我们的框架自动构建在线查询的轨迹库,类似于利用离线计算的以前方法。重要的是,我们的方法还提供了轨迹长度上有限的次级优势保证。关键的想法是建立称为$ \ epsilon $ -Gromov-Hausdorff近似值的近似异构体,以便在任务空间附近的点也很接近配置空间。这些边界关系进一步意味着可以平稳地串联轨迹,这使我们的框架能够解决批次查询方案,目的是找到最小长度的轨迹顺序,这些轨迹访问一组无序的目标。我们通过几种运动型配置评估了模拟框架,包括安装在移动基础上的操纵器。结果表明,我们的方法可实现可行的实时应用,并为扩展其功能提供了有趣的机会。
translated by 谷歌翻译
解决逆运动学问题是针对清晰机器人的运动计划,控制和校准的基本挑战。这些机器人的运动学模型通常通过关节角度进行参数化,从而在机器人构型和最终效果姿势之间产生复杂的映射。或者,可以使用机器人附加点之间的不变距离来表示运动学模型和任务约束。在本文中,我们将基于距离的逆运动学的等效性和大量铰接式机器人和任务约束的距离几何问题进行形式化。与以前的方法不同,我们使用距离几何形状和低级别矩阵完成之间的连接来通过局部优化完成部分欧几里得距离矩阵来找到逆运动学解决方案。此外,我们用固定级革兰氏矩阵的Riemannian歧管来参数欧几里得距离矩阵的空间,从而使我们能够利用各种成熟的Riemannian优化方法。最后,我们表明,绑定的平滑性可用于生成知情的初始化,而无需大量的计算开销,从而改善收敛性。我们证明,我们的逆运动求解器比传统技术获得更高的成功率,并且在涉及许多工作区约束的问题上大大优于它们。
translated by 谷歌翻译
Policy search methods can allow robots to learn control policies for a wide range of tasks, but practical applications of policy search often require hand-engineered components for perception, state estimation, and low-level control. In this paper, we aim to answer the following question: does training the perception and control systems jointly end-toend provide better performance than training each component separately? To this end, we develop a method that can be used to learn policies that map raw image observations directly to torques at the robot's motors. The policies are represented by deep convolutional neural networks (CNNs) with 92,000 parameters, and are trained using a guided policy search method, which transforms policy search into supervised learning, with supervision provided by a simple trajectory-centric reinforcement learning method. We evaluate our method on a range of real-world manipulation tasks that require close coordination between vision and control, such as screwing a cap onto a bottle, and present simulated comparisons to a range of prior policy search methods.
translated by 谷歌翻译
Dynamic movement primitives are widely used for learning skills which can be demonstrated to a robot by a skilled human or controller. While their generalization capabilities and simple formulation make them very appealing to use, they possess no strong guarantees to satisfy operational safety constraints for a task. In this paper, we present constrained dynamic movement primitives (CDMP) which can allow for constraint satisfaction in the robot workspace. We present a formulation of a non-linear optimization to perturb the DMP forcing weights regressed by locally-weighted regression to admit a Zeroing Barrier Function (ZBF), which certifies workspace constraint satisfaction. We demonstrate the proposed CDMP under different constraints on the end-effector movement such as obstacle avoidance and workspace constraints on a physical robot. A video showing the implementation of the proposed algorithm using different manipulators in different environments could be found here https://youtu.be/hJegJJkJfys.
translated by 谷歌翻译
本文着重于影响弹性的移动机器人的碰撞运动计划和控制的新兴范式转移,并开发了一个统一的层次结构框架,用于在未知和部分观察的杂物空间中导航。在较低级别上,我们开发了一种变形恢复控制和轨迹重新启动策略,该策略处理可能在本地运行时发生的碰撞。低级系统会积极检测碰撞(通过内部内置的移动机器人上的嵌入式霍尔效应传感器),使机器人能够从其内部恢复,并在本地调整后影响后的轨迹。然后,在高层,我们提出了一种基于搜索的计划算法,以确定如何最好地利用潜在的碰撞来改善某些指标,例如控制能量和计算时间。我们的方法建立在A*带有跳跃点的基础上。我们生成了一种新颖的启发式功能,并进行了碰撞检查和调整技术,从而使A*算法通过利用和利用可能的碰撞来更快地收敛到达目标。通过将全局A*算法和局部变形恢复和重新融合策略以及该框架的各个组件相结合而生成的整体分层框架在模拟和实验中都经过了广泛的测试。一项消融研究借鉴了与基于搜索的最先进的避免碰撞计划者(用于整体框架)的链接,以及基于搜索的避免碰撞和基于采样的碰撞 - 碰撞 - 全球规划师(对于更高的较高的碰撞 - 等级)。结果证明了我们的方法在未知环境中具有碰撞的运动计划和控制的功效,在2D中运行的一类撞击弹性机器人具有孤立的障碍物。
translated by 谷歌翻译
尽管移动操作在工业和服务机器人技术方面都重要,但仍然是一个重大挑战,因为它需要将最终效应轨迹的无缝整合与导航技能以及对长匹马的推理。现有方法难以控制大型配置空间,并导航动态和未知环境。在先前的工作中,我们建议将移动操纵任务分解为任务空间中最终效果的简化运动生成器,并将移动设备分解为训练有素的强化学习代理,以说明移动基础的运动基础,以说明运动的运动可行性。在这项工作中,我们引入了移动操作的神经导航(n $^2 $ m $^2 $),该导航将这种分解扩展到复杂的障碍环境,并使其能够解决现实世界中的广泛任务。最终的方法可以在未探索的环境中执行看不见的长马任务,同时立即对动态障碍和环境变化做出反应。同时,它提供了一种定义新的移动操作任务的简单方法。我们证明了我们提出的方法在多个运动学上多样化的移动操纵器上进行的广泛模拟和现实实验的能力。代码和视频可在http://mobile-rl.cs.uni-freiburg.de上公开获得。
translated by 谷歌翻译
Many problems in robotics are fundamentally problems of geometry, which lead to an increased research effort in geometric methods for robotics in recent years. The results were algorithms using the various frameworks of screw theory, Lie algebra and dual quaternions. A unification and generalization of these popular formalisms can be found in geometric algebra. The aim of this paper is to showcase the capabilities of geometric algebra when applied to robot manipulation tasks. In particular the modelling of cost functions for optimal control can be done uniformly across different geometric primitives leading to a low symbolic complexity of the resulting expressions and a geometric intuitiveness. We demonstrate the usefulness, simplicity and computational efficiency of geometric algebra in several experiments using a Franka Emika robot. The presented algorithms were implemented in c++20 and resulted in the publicly available library \textit{gafro}. The benchmark shows faster computation of the kinematics than state-of-the-art robotics libraries.
translated by 谷歌翻译
策略搜索和模型预测控制〜(MPC)是机器人控制的两个不同范式:策略搜索具有使用经验丰富的数据自动学习复杂策略的强度,而MPC可以使用模型和轨迹优化提供最佳控制性能。开放的研究问题是如何利用并结合两种方法的优势。在这项工作中,我们通过使用策略搜索自动选择MPC的高级决策变量提供答案,这导致了一种新的策略搜索 - 用于模型预测控制框架。具体地,我们将MPC作为参数化控制器配制,其中难以优化的决策变量表示为高级策略。这种制定允许以自我监督的方式优化政策。我们通过专注于敏捷无人机飞行中的具有挑战性的问题来验证这一框架:通过快速的盖茨飞行四轮车。实验表明,我们的控制器在模拟和现实世界中实现了鲁棒和实时的控制性能。拟议的框架提供了合并学习和控制的新视角。
translated by 谷歌翻译
在本次调查中,我们介绍了执行需要不同于环境的操作任务的机器人的当前状态,使得机器人必须隐含地或明确地控制与环境的接触力来完成任务。机器人可以执行越来越多的人体操作任务,并且在1)主题上具有越来越多的出版物,其执行始终需要联系的任务,并且通过利用完美的任务来减轻环境来缓解不确定性信息,可以在没有联系的情况下进行。最近的趋势已经看到机器人在留下的人类留给人类,例如按摩,以及诸如PEG孔的经典任务中,对其他类似任务的概率更有效,更好的误差容忍以及更快的规划或学习任务。因此,在本调查中,我们涵盖了执行此类任务的机器人的当前阶段,从调查开始所有不同的联系方式机器人可以执行,观察这些任务是如何控制和表示的,并且最终呈现所需技能的学习和规划完成这些任务。
translated by 谷歌翻译
在粗糙的地形上的动态运动需要准确的脚部放置,避免碰撞以及系统的动态不足的计划。在存在不完美且常常不完整的感知信息的情况下,可靠地优化此类动作和互动是具有挑战性的。我们提出了一个完整的感知,计划和控制管道,可以实时优化机器人所有自由度的动作。为了减轻地形所带来的数值挑战,凸出不平等约束的顺序被提取为立足性可行性的局部近似值,并嵌入到在线模型预测控制器中。每个高程映射预先计算了步骤性分类,平面分割和签名的距离场,以最大程度地减少优化过程中的计算工作。多次射击,实时迭代和基于滤波器的线路搜索的组合用于可靠地以高速率解决该法式问题。我们在模拟中的间隙,斜率和踏上石头的情况下验证了所提出的方法,并在Anymal四倍的平台上进行实验,从而实现了最新的动态攀登。
translated by 谷歌翻译
本文为复杂和物理互动的任务提供了用于移动操纵器的混合学习和优化框架。该框架利用了入学型物理接口,以获得直观而简化的人类演示和高斯混合模型(GMM)/高斯混合物回归(GMR),以根据位置,速度和力剖面来编码和生成学习的任务要求。接下来,使用GMM/GMR生成的所需轨迹和力剖面,通过用二次程序加强能量箱增强笛卡尔阻抗控制器的阻抗参数可以在线优化,以确保受控系统的消极性。进行了两个实验以验证框架,将我们的方法与两种恒定刚度(高和低)的方法进行了比较。结果表明,即使在存在诸如意外的最终效应碰撞等干扰的情况下,该方法在轨迹跟踪和生成的相互作用力方面都优于其他两种情况。
translated by 谷歌翻译
我们描述了更改 - 联系机器人操作任务的框架,要求机器人与对象和表面打破触点。这种任务的不连续交互动态使得难以构建和使用单个动力学模型或控制策略,并且接触变化期间动态的高度非线性性质可能对机器人和物体造成损害。我们提出了一种自适应控制框架,使机器人能够逐步学习以预测更改联系人任务中的接触变化,从而了解了碎片连续系统的交互动态,并使用任务空间可变阻抗控制器提供平滑且精确的轨迹跟踪。我们通过实验比较我们框架的表现,以确定所需的代表性控制方法,以确定我们框架的自适应控制和增量学习组件需要在变化 - 联系机器人操纵任务中存在不连续动态的平稳控制。
translated by 谷歌翻译
Reinforcement learning can acquire complex behaviors from high-level specifications. However, defining a cost function that can be optimized effectively and encodes the correct task is challenging in practice. We explore how inverse optimal control (IOC) can be used to learn behaviors from demonstrations, with applications to torque control of high-dimensional robotic systems. Our method addresses two key challenges in inverse optimal control: first, the need for informative features and effective regularization to impose structure on the cost, and second, the difficulty of learning the cost function under unknown dynamics for high-dimensional continuous systems. To address the former challenge, we present an algorithm capable of learning arbitrary nonlinear cost functions, such as neural networks, without meticulous feature engineering. To address the latter challenge, we formulate an efficient sample-based approximation for MaxEnt IOC. We evaluate our method on a series of simulated tasks and real-world robotic manipulation problems, demonstrating substantial improvement over prior methods both in terms of task complexity and sample efficiency.
translated by 谷歌翻译
本文开发了连续的蓬松蛋白可区分编程(连续PDP)的方法,该方法使机器人能够从少数稀疏的关键帧中学习目标函数。带有一些时间戳记的密钥帧是所需的任务空间输出,预计机器人将顺序遵循。密钥帧的时间戳可能与机器人的实际执行时间不同。该方法共同找到一个目标函数和一个盘绕函数,以使机器人的产生轨迹顺序遵循关键帧,并以最小的差异损失。连续的PDP通过有效求解机器人轨迹相对于未知参数的梯度,可以最大程度地减少投影梯度下降的差异损失。该方法首先在模拟机器人臂上进行评估,然后应用于6-DOF四极管,以在未建模的环境中学习目标函数。结果表明,该方法的效率,其处理密钥帧和机器人执行之间的时间错位的能力以及将客观学习对看不见的运动条件的概括。
translated by 谷歌翻译
Humans intuitively solve tasks in versatile ways, varying their behavior in terms of trajectory-based planning and for individual steps. Thus, they can easily generalize and adapt to new and changing environments. Current Imitation Learning algorithms often only consider unimodal expert demonstrations and act in a state-action-based setting, making it difficult for them to imitate human behavior in case of versatile demonstrations. Instead, we combine a mixture of movement primitives with a distribution matching objective to learn versatile behaviors that match the expert's behavior and versatility. To facilitate generalization to novel task configurations, we do not directly match the agent's and expert's trajectory distributions but rather work with concise geometric descriptors which generalize well to unseen task configurations. We empirically validate our method on various robot tasks using versatile human demonstrations and compare to imitation learning algorithms in a state-action setting as well as a trajectory-based setting. We find that the geometric descriptors greatly help in generalizing to new task configurations and that combining them with our distribution-matching objective is crucial for representing and reproducing versatile behavior.
translated by 谷歌翻译