最近,许多作品探索了SIM到真实传递的可传递视觉模型预测性控制(MPC)。但是,这样的作品仅限于一次性转移,必须收集一次现实世界的数据才能执行SIM到实现的传输,这仍然是一项重大的人类努力,在将模拟中学到的模型转移到真实的新域中所学的模型世界。为了减轻这个问题,我们首先提出了一个新型的模型学习框架,称为Kalman随机到典型模型(KRC模型)。该框架能够从随机图像中提取与任务相关的内在特征及其动力学。然后,我们建议使用KRC模型的Kalman随机到典型模型预测控制(KRC-MPC)作为零射击的SIM到真实转移视觉MPC。通过仿真和现实世界中的机器人手和模拟中的块配合任务,通过机器人手通过机器人手来评估我们方法的有效性。实验结果表明,KRC-MPC可以以零拍的方式应用于各种真实域和任务。
translated by 谷歌翻译
在许多领域,包括强化学习和控制在内的许多领域,从一系列高维观测中学习或识别动力学是一个困难的挑战。最近通过潜在动力学从生成的角度研究了这个问题:将高维观测结果嵌入到较低维的空间中,可以在其中学习动力学。尽管取得了一些成功,但尚未将潜在动力学模型应用于现实世界的机器人系统,在这些机器人系统中,学习的表示形式必须适合各种感知混杂和噪声源。在本文中,我们提出了一种共同学习潜在状态表示的方法以及在感知困难条件下的长期计划和闭环控制的相关动力。作为我们的主要贡献,我们描述了我们的表示如何能够通过检测新颖或分布(OOD)输入来捕获测试时间的异质或输入特异性不确定性的概念。我们介绍了有关两个基于图像的任务的预测和控制实验的结果:一个模拟的摆平衡任务和实现任务的现实世界机器人操纵器。我们证明,与仅在不同程度的输入降解的情况下,我们的模型可产生更准确的预测,并表现出改善的控制性能。
translated by 谷歌翻译
机器人的培训数据传输是一种在学习和基于视觉的机器人控制中的一点探索主题。因此,我们提出了一种具有较低自由度(DOF)动作的机器人的转移方法,其与利用全向相机的更高的DOF。机器人相机的虚拟旋转使得在该传输学习过程中能够进行数据增强。在这项研究中,使用由仅具有三个DOF的差分轮式地机器人收集的数据集进行6-DOF机器人的基于视觉控制策略。在机器人操纵中的应用,我们还使用具有不同视图的多个策略来展示6-DOF ARM机器人的控制系统,以实现对象达到任务。
translated by 谷歌翻译
策略搜索和模型预测控制〜(MPC)是机器人控制的两个不同范式:策略搜索具有使用经验丰富的数据自动学习复杂策略的强度,而MPC可以使用模型和轨迹优化提供最佳控制性能。开放的研究问题是如何利用并结合两种方法的优势。在这项工作中,我们通过使用策略搜索自动选择MPC的高级决策变量提供答案,这导致了一种新的策略搜索 - 用于模型预测控制框架。具体地,我们将MPC作为参数化控制器配制,其中难以优化的决策变量表示为高级策略。这种制定允许以自我监督的方式优化政策。我们通过专注于敏捷无人机飞行中的具有挑战性的问题来验证这一框架:通过快速的盖茨飞行四轮车。实验表明,我们的控制器在模拟和现实世界中实现了鲁棒和实时的控制性能。拟议的框架提供了合并学习和控制的新视角。
translated by 谷歌翻译
有效推论是一种数学框架,它起源于计算神经科学,作为大脑如何实现动作,感知和学习的理论。最近,已被证明是在不确定性下存在国家估算和控制问题的有希望的方法,以及一般的机器人和人工代理人的目标驱动行为的基础。在这里,我们审查了最先进的理论和对国家估计,控制,规划和学习的积极推断的实现;描述当前的成就,特别关注机器人。我们展示了相关实验,以适应,泛化和稳健性而言说明其潜力。此外,我们将这种方法与其他框架联系起来,并讨论其预期的利益和挑战:使用变分贝叶斯推理具有功能生物合理性的统一框架。
translated by 谷歌翻译
In contact-rich tasks, like dexterous manipulation, the hybrid nature of making and breaking contact creates challenges for model representation and control. For example, choosing and sequencing contact locations for in-hand manipulation, where there are thousands of potential hybrid modes, is not generally tractable. In this paper, we are inspired by the observation that far fewer modes are actually necessary to accomplish many tasks. Building on our prior work learning hybrid models, represented as linear complementarity systems, we find a reduced-order hybrid model requiring only a limited number of task-relevant modes. This simplified representation, in combination with model predictive control, enables real-time control yet is sufficient for achieving high performance. We demonstrate the proposed method first on synthetic hybrid systems, reducing the mode count by multiple orders of magnitude while achieving task performance loss of less than 5%. We also apply the proposed method to a three-fingered robotic hand manipulating a previously unknown object. With no prior knowledge, we achieve state-of-the-art closed-loop performance in less than five minutes of online learning.
translated by 谷歌翻译
深度学习的兴起导致机器人研究中的范式转变,有利于需要大量数据的方法。在物理平台上生成这样的数据集是昂贵的。因此,最先进的方法在模拟中学习,其中数据生成快速以及廉价并随后将知识转移到真实机器人(SIM-to-Real)。尽管变得越来越真实,但所有模拟器都是基于模型的施工,因此不可避免地不完善。这提出了如何修改模拟器以促进学习机器人控制政策的问题,并克服模拟与现实之间的不匹配,通常称为“现实差距”。我们对机器人学的SIM-Teal研究提供了全面的审查,专注于名为“域随机化”的技术,这是一种从随机仿真学习的方法。
translated by 谷歌翻译
有效的探索仍然是强化学习中有挑战性的问题,特别是对于来自环境的外在奖励稀疏甚至完全忽视的任务。基于内在动机的重要进展显示了在简单环境中的有希望的结果,但通常会在具有多式联运和随机动力学的环境中陷入困境。在这项工作中,我们提出了一种基于条件变分推理的变分动力模型来模拟多模和随机性。通过在当前状态,动作和潜在变量的条件下产生下一个状态预测,我们考虑作为条件生成过程的环境状态动作转换,这提供了更好地了解动态并在勘探中引发更好的性能。我们派生了环境过渡的负面日志可能性的上限,并使用这样一个上限作为勘探的内在奖励,这使得代理通过自我监督的探索来学习技能,而无需观察外在奖励。我们在基于图像的仿真任务和真正的机器人操纵任务中评估所提出的方法。我们的方法优于若干基于最先进的环境模型的勘探方法。
translated by 谷歌翻译
惯性测量单元(IMU)在机器人研究中无处不在。它为机器人提供了姿势信息,以实现平衡和导航。但是,人类和动物可以在没有精确的方向或位置值的情况下感知其身体在环境中的运动。这种互动固有地涉及感知和动作之间的快速反馈回路。这项工作提出了一种端到端方法,该方法使用高维视觉观察和动作命令来训练视觉自模型进行腿部运动。视觉自模型学习机器人身体运动与地面纹理之间的空间关系从图像序列变化。我们证明机器人可以利用视觉自模型来实现机器人在训练过程中看不见的现实环境中的各种运动任务。通过我们提出的方法,机器人可以在没有IMU的情况下或在没有GPS或弱地磁场的环境中进行运动,例如该市的室内和Urban Canyons。
translated by 谷歌翻译
重新安排任务已被确定为智能机器人操纵的关键挑战,但是很少有方法可以精确构造看不见的结构。我们为挑选重排操作提供了视觉远见模型,该模型能够有效地学习。此外,我们开发了一个多模式的动作提案模块,该模块建立在目标条件转运者网络上,这是一种最新的模仿学习方法。我们基于图像的任务计划方法,具有视觉前瞻性的转运蛋白,只能从少数数据中学习,并以零拍的方式推广到多个看不见的任务。 TVF能够提高对模拟和真实机器人实验中看不见的任务的最先进模仿学习方法的性能。特别是,在模拟实验中,看不见的任务的平均成功率从55.4%提高到78.5%,而在实际机器人实验中,只有数十次专家示范。视频和代码可在我们的项目网站上找到:https://chirikjianlab.github.io/tvf/
translated by 谷歌翻译
通过改变肌肉僵硬来适应符合性的能力对于人类灵巧的操纵技巧至关重要。在机器人电动机控制中纳入合规性对于执行具有人级敏捷性的现实力量相互作用任务至关重要。这项工作为合规机器人操作提供了一个深层的模型预测性变量阻抗控制器,该阻抗操纵结合了可变阻抗控制与模型预测控制(MPC)。使用最大化信息增益的勘探策略学习了机器人操纵器的广义笛卡尔阻抗模型。该模型在MPC框架内使用,以适应低级变量阻抗控制器的阻抗参数,以实现针对不同操纵任务的所需合规性行为,而无需进行任何重新培训或填充。使用Franka Emika Panda机器人操纵器在模拟和实际实验中运行的操作,使用Franka Emika Panda机器人操纵器评估深层模型预测性变量阻抗控制方法。将所提出的方法与无模型和基于模型的强化方法进行了比较,以可变阻抗控制,以进行任务和性能之间的可传递性。
translated by 谷歌翻译
我们考虑将移动机器人导航到具有视觉传感器的未知环境中的问题,在该环境中,机器人和传感器都无法访问全局定位信息,并且仅使用第一人称视图图像。虽然基于传感器网络的先前工作使用明确的映射和计划技术,并且经常得到外部定位系统的帮助,但我们提出了一种基于视觉的学习方法,该方法利用图形神经网络(GNN)来编码和传达相关的视点信息到移动机器人。在导航期间,机器人以模型为指导,我们通过模仿学习训练以近似最佳的运动原语,从而预测有效的成本(目标)。在我们的实验中,我们首先证明了具有各种传感器布局的以前看不见的环境的普遍性。仿真结果表明,通过利用传感器和机器人之间的通信,我们可以达到$ 18.1 \%$ $的成功率,同时将路径弯路的平均值降低$ 29.3 \%$,并且可变性降低了$ 48.4 \%$ $。这是在不需要全局地图,定位数据或传感器网络预校准的情况下完成的。其次,我们将模型从模拟到现实世界进行零拍传输。为此,我们训练一个“翻译器”模型,该模型在{}真实图像和模拟图像之间转换,以便可以直接在真实的机器人上使用导航策略(完全在模拟中训练),而无需其他微调。 。物理实验证明了我们在各种混乱的环境中的有效性。
translated by 谷歌翻译
Sampling-based methods have become a cornerstone of contemporary approaches to Model Predictive Control (MPC), as they make no restrictions on the differentiability of the dynamics or cost function and are straightforward to parallelize. However, their efficacy is highly dependent on the quality of the sampling distribution itself, which is often assumed to be simple, like a Gaussian. This restriction can result in samples which are far from optimal, leading to poor performance. Recent work has explored improving the performance of MPC by sampling in a learned latent space of controls. However, these methods ultimately perform all MPC parameter updates and warm-starting between time steps in the control space. This requires us to rely on a number of heuristics for generating samples and updating the distribution and may lead to sub-optimal performance. Instead, we propose to carry out all operations in the latent space, allowing us to take full advantage of the learned distribution. Specifically, we frame the learning problem as bi-level optimization and show how to train the controller with backpropagation-through-time. By using a normalizing flow parameterization of the distribution, we can leverage its tractable density to avoid requiring differentiability of the dynamics and cost function. Finally, we evaluate the proposed approach on simulated robotics tasks and demonstrate its ability to surpass the performance of prior methods and scale better with a reduced number of samples.
translated by 谷歌翻译
我们研究了复杂几何物体的机器人堆叠问题。我们提出了一个挑战和多样化的这些物体,这些物体被精心设计,以便要求超出简单的“拾取”解决方案之外的策略。我们的方法是加强学习(RL)方法与基于视觉的互动政策蒸馏和模拟到现实转移相结合。我们的学习政策可以有效地处理现实世界中的多个对象组合,并展示各种各样的堆叠技能。在一个大型的实验研究中,我们调查在模拟中学习这种基于视觉的基于视觉的代理的选择,以及对真实机器人的最佳转移产生了什么影响。然后,我们利用这些策略收集的数据并通过离线RL改善它们。我们工作的视频和博客文章作为补充材料提供。
translated by 谷歌翻译
我们为具有高维状态空间的复杂操纵任务的视觉动作计划提供了一个框架,重点是操纵可变形物体。我们为任务计划提出了一个潜在的空间路线图(LSR),这是一个基于图的结构,在全球范围内捕获了低维潜在空间中的系统动力学。我们的框架由三个部分组成:(1)映射模块(mm),该模块以图像的形式映射观测值,以提取各个状态的结构化潜在空间,并从潜在状态产生观测值,(2)LSR,LSR的LSR构建并连接包含相似状态的群集,以找到MM提取的开始和目标状态之间的潜在计划,以及(3)与LSR相应的潜在计划与相应的操作相辅相成的动作提案模块。我们对模拟的盒子堆叠和绳索/盒子操纵任务进行了彻底的调查,以及在真实机器人上执行的折叠任务。
translated by 谷歌翻译
Humans demonstrate a variety of interesting behavioral characteristics when performing tasks, such as selecting between seemingly equivalent optimal actions, performing recovery actions when deviating from the optimal trajectory, or moderating actions in response to sensed risks. However, imitation learning, which attempts to teach robots to perform these same tasks from observations of human demonstrations, often fails to capture such behavior. Specifically, commonly used learning algorithms embody inherent contradictions between the learning assumptions (e.g., single optimal action) and actual human behavior (e.g., multiple optimal actions), thereby limiting robot generalizability, applicability, and demonstration feasibility. To address this, this paper proposes designing imitation learning algorithms with a focus on utilizing human behavioral characteristics, thereby embodying principles for capturing and exploiting actual demonstrator behavioral characteristics. This paper presents the first imitation learning framework, Bayesian Disturbance Injection (BDI), that typifies human behavioral characteristics by incorporating model flexibility, robustification, and risk sensitivity. Bayesian inference is used to learn flexible non-parametric multi-action policies, while simultaneously robustifying policies by injecting risk-sensitive disturbances to induce human recovery action and ensuring demonstration feasibility. Our method is evaluated through risk-sensitive simulations and real-robot experiments (e.g., table-sweep task, shaft-reach task and shaft-insertion task) using the UR5e 6-DOF robotic arm, to demonstrate the improved characterisation of behavior. Results show significant improvement in task performance, through improved flexibility, robustness as well as demonstration feasibility.
translated by 谷歌翻译
从高维观测数据中提取低维潜在空间对于在提取的潜在空间上构建具有世界模型的实时机器人控制器至关重要。但是,没有建立的方法可以自动调整潜在空间的尺寸,因为它发现了必要和充分的尺寸大小,即世界模型的最小实现。在这项研究中,我们分析并改善了基于Tsallis的变异自动编码器(Q-VAE),并揭示,在适当的配置下,它始终有助于使潜在空间稀疏。即使与最小的实现相比,预先指定的潜在空间的尺寸是多余的,这种稀疏也会崩溃不必要的尺寸,从而易于删除它们。我们通过提出的方法在实验中验证了稀疏性的好处,它可以轻松地使用需要六维状态空间的移动操纵器找到必要和足够的六个维度。此外,通过在提取的维度中学习的最低实现世界模型的计划,该提出的方法能够实时发挥最佳的动作序列,从而将达到的成就时间降低了约20%。随附的视频已上传到YouTube:https://youtu.be/-qjitrnxars上
translated by 谷歌翻译
Policy search methods can allow robots to learn control policies for a wide range of tasks, but practical applications of policy search often require hand-engineered components for perception, state estimation, and low-level control. In this paper, we aim to answer the following question: does training the perception and control systems jointly end-toend provide better performance than training each component separately? To this end, we develop a method that can be used to learn policies that map raw image observations directly to torques at the robot's motors. The policies are represented by deep convolutional neural networks (CNNs) with 92,000 parameters, and are trained using a guided policy search method, which transforms policy search into supervised learning, with supervision provided by a simple trajectory-centric reinforcement learning method. We evaluate our method on a range of real-world manipulation tasks that require close coordination between vision and control, such as screwing a cap onto a bottle, and present simulated comparisons to a range of prior policy search methods.
translated by 谷歌翻译
可变形线性对象(DLOS)的机器人操纵在许多领域都具有广泛的应用前景。但是,一个关键问题是获得确切的变形模型(即机器人运动如何影响DLO变形),这些模型在不同的DLOS之间很难计算和变化。因此,DLOS的形状控制具有挑战性,尤其是对于需要全球和更准确模型的大型变形控制。在本文中,我们提出了一种离线和在线数据驱动的方法,用于有效地学习全球变形模型,从而可以通过离线学习进行准确的建模,并通过在线适应进行新的DLOS进行进一步更新。具体而言,由神经网络近似的模型首先是在随机数据的离线训练中,然后无缝迁移到在线阶段,并在实际操纵过程中进一步在线更新。引入了几种策略,以提高模型的效率和泛化能力。我们提出了一个基于凸优化的控制器,并使用Lyapunov方法分析系统的稳定性。详细的仿真和现实世界实验表明,我们的方法可以有效,精确地估计变形模型,并在2D和3D双臂操纵任务中对未经训练的DLO进行大型变形控制,而不是现有方法。它仅使用仿真数据进行离线学习来完成所有24个任务,并在现实世界中不同的DLO上具有不同的所需形状。
translated by 谷歌翻译
从意外的外部扰动中恢复的能力是双模型运动的基本机动技能。有效的答复包括不仅可以恢复平衡并保持稳定性的能力,而且在平衡恢复物质不可行时,也可以保证安全的方式。对于与双式运动有关的机器人,例如人形机器人和辅助机器人设备,可帮助人类行走,设计能够提供这种稳定性和安全性的控制器可以防止机器人损坏或防止伤害相关的医疗费用。这是一个具有挑战性的任务,因为它涉及用触点产生高维,非线性和致动系统的高动态运动。尽管使用基于模型和优化方法的前进方面,但诸如广泛领域知识的要求,诸如较大的计算时间和有限的动态变化的鲁棒性仍然会使这个打开问题。在本文中,为了解决这些问题,我们开发基于学习的算法,能够为两种不同的机器人合成推送恢复控制政策:人形机器人和有助于双模型运动的辅助机器人设备。我们的工作可以分为两个密切相关的指示:1)学习人形机器人的安全下降和预防策略,2)使用机器人辅助装置学习人类的预防策略。为实现这一目标,我们介绍了一套深度加强学习(DRL)算法,以学习使用这些机器人时提高安全性的控制策略。
translated by 谷歌翻译