Fabric manipulation is a long-standing challenge in robotics due to the enormous state space and complex dynamics. Learning approaches stand out as promising for this domain as they allow us to learn behaviours directly from data. Most prior methods however rely heavily on simulation, which is still limited by the large sim-to-real gap of deformable objects or rely on large datasets. A promising alternative is to learn fabric manipulation directly from watching humans perform the task. In this work, we explore how demonstrations for fabric manipulation tasks can be collected directly by human hands, providing an extremely natural and fast data collection pipeline. Then, using only a handful of such demonstrations, we show how a sample-efficient pick-and-place policy can be learned and deployed on a real robot, without any robot data collection at all. We demonstrate our approach on a fabric folding task, showing that our policy can reliably reach folded states from crumpled initial configurations.
translated by 谷歌翻译
我们解决了目标定向布操纵问题,这是由于布的可变形性导致的具有挑战性的任务。我们的见解是,光流量,一种通常用于视频中运动估计的技术,还可以提供相应布在观察和目标图像上的相应布构成的有效表示。我们介绍了FabricFlowNet(FFN),布料操作策略,利用流量作为输入和作为提高性能的动作表示。 FabricFlownet也根据所需目标在Bimanual和单臂动作之间提供优雅的切换。我们表明,FabricFlownet明显优于拍摄图像输入的最先进的无模型和模型的布料操作策略。我们还在生效系统上呈现实际的实验,展示了有效的SIM-to-Real Transfer。最后,我们表明我们的方法在单个方形布上训练到其他布形时,如T恤和矩形布。视频和其他补充材料可用于:https://sites.google.com/view/fabricFlownet。
translated by 谷歌翻译
折叠服装可靠,有效地是由于服装的复杂动力学和高尺寸配置空间,在机器人操作中是一项漫长的挑战。一种直观的方法是最初在折叠之前将服装操纵到典型的平滑配置。在这项工作中,我们开发了一种可靠且高效的双人系统,将用户定义的指令视为折叠线,将最初弄皱的服装操纵为(1)平滑和(2)折叠配置。我们的主要贡献是一种新型的神经网络体系结构,能够预测成对的握把姿势,以参数化各种双人动作原始序列。在从4300次人类注销和自我监督的动作中学习后,机器人能够平均从120年代以下的随机初始配置折叠服装,成功率为93%。现实世界实验表明,该系统能够概括到不同颜色,形状和刚度的服装。虽然先前的工作每小时达到3-6倍(FPH),但SpeedFolding却达到30-40 FPH。
translated by 谷歌翻译
我们通过在野外观看人类来解决学习问题。尽管在现实世界中学习的传统方法和强化学习对于学习是有希望的,但它们要么是效率低下的样本,要么被限制在实验室环境中。同时,处理被动的,非结构化的人类数据已经取得了很大的成功。我们建议通过有效的一声机器人学习算法解决此问题,该算法围绕第三人称的角度学习。我们称我们的方法旋转:野生人类模仿机器人学习。旋转对人类演示者的意图提取先前,并使用它来初始化代理商的策略。我们介绍了一种有效的现实世界政策学习方案,该方案可以使用交互作用进行改进。我们的主要贡献是一种简单的基于抽样的策略优化方法,这是一种对齐人和机器人视频的新型目标功能,以及一种提高样本效率的探索方法。我们在现实世界中展示了单一的概括和成功,其中包括野外的20个不同的操纵任务。视频并在https://human2robot.github.io上进行交谈
translated by 谷歌翻译
机器人操纵可以配制成诱导一系列空间位移:其中移动的空间可以包括物体,物体的一部分或末端执行器。在这项工作中,我们提出了一个简单的模型架构,它重新排列了深度功能,以从视觉输入推断出可视输入的空间位移 - 这可以参数化机器人操作。它没有对象的假设(例如规范姿势,模型或关键点),它利用空间对称性,并且比我们学习基于视觉的操纵任务的基准替代方案更高的样本效率,并且依赖于堆叠的金字塔用看不见的物体组装套件;从操纵可变形的绳索,以将堆积的小物体推动,具有闭环反馈。我们的方法可以表示复杂的多模态策略分布,并推广到多步顺序任务,以及6dof拾取器。 10个模拟任务的实验表明,它比各种端到端基线更快地学习并概括,包括使用地面真实对象姿势的政策。我们在现实世界中使用硬件验证我们的方法。实验视频和代码可在https://transporternets.github.io获得
translated by 谷歌翻译
Cloth in the real world is often crumpled, self-occluded, or folded in on itself such that key regions, such as corners, are not directly graspable, making manipulation difficult. We propose a system that leverages visual and tactile perception to unfold the cloth via grasping and sliding on edges. By doing so, the robot is able to grasp two adjacent corners, enabling subsequent manipulation tasks like folding or hanging. As components of this system, we develop tactile perception networks that classify whether an edge is grasped and estimate the pose of the edge. We use the edge classification network to supervise a visuotactile edge grasp affordance network that can grasp edges with a 90% success rate. Once an edge is grasped, we demonstrate that the robot can slide along the cloth to the adjacent corner using tactile pose estimation/control in real time. See http://nehasunil.com/visuotactile/visuotactile.html for videos.
translated by 谷歌翻译
重新安排任务已被确定为智能机器人操纵的关键挑战,但是很少有方法可以精确构造看不见的结构。我们为挑选重排操作提供了视觉远见模型,该模型能够有效地学习。此外,我们开发了一个多模式的动作提案模块,该模块建立在目标条件转运者网络上,这是一种最新的模仿学习方法。我们基于图像的任务计划方法,具有视觉前瞻性的转运蛋白,只能从少数数据中学习,并以零拍的方式推广到多个看不见的任务。 TVF能够提高对模拟和真实机器人实验中看不见的任务的最先进模仿学习方法的性能。特别是,在模拟实验中,看不见的任务的平均成功率从55.4%提高到78.5%,而在实际机器人实验中,只有数十次专家示范。视频和代码可在我们的项目网站上找到:https://chirikjianlab.github.io/tvf/
translated by 谷歌翻译
我们研究了从机器人交互的大型离线数据集学习一系列基于视觉的操纵任务的问题。为了实现这一目标,人类需要简单有效地将任务指定给机器人。目标图像是一种流行的任务规范形式,因为它们已经在机器人的观察空间接地。然而,目标图像也有许多缺点:它们对人类提供的不方便,它们可以通过提供导致稀疏奖励信号的所需行为,或者在非目标达到任务的情况下指定任务信息。自然语言为任务规范提供了一种方便而灵活的替代方案,而是随着机器人观察空间的接地语言挑战。为了可扩展地学习此基础,我们建议利用具有人群源语言标签的离线机器人数据集(包括高度最佳,自主收集的数据)。使用此数据,我们学习一个简单的分类器,该分类器预测状态的更改是否完成了语言指令。这提供了一种语言调节奖励函数,然后可以用于离线多任务RL。在我们的实验中,我们发现,在语言条件的操作任务中,我们的方法优于目标 - 图像规格和语言条件仿制技术超过25%,并且能够从自然语言中执行Visuomotor任务,例如“打开右抽屉“和”移动订书机“,在弗兰卡·埃米卡熊猫机器人上。
translated by 谷歌翻译
在移动操作(MM)中,机器人可以在内部导航并与其环境进行交互,因此能够完成比仅能够导航或操纵的机器人的更多任务。在这项工作中,我们探讨如何应用模仿学习(IL)来学习MM任务的连续Visuo-Motor策略。许多事先工作表明,IL可以为操作或导航域训练Visuo-Motor策略,但很少有效应用IL到MM域。这样做是挑战的两个原因:在数据方面,当前的接口使得收集高质量的人类示范困难,在学习方面,有限数据培训的政策可能会在部署时遭受协变速转变。为了解决这些问题,我们首先提出了移动操作Roboturk(Momart),这是一种新颖的遥控框架,允许同时导航和操纵移动操纵器,并在现实的模拟厨房设置中收集一类大规模的大规模数据集。然后,我们提出了一个学习错误检测系统来解决通过检测代理处于潜在故障状态时的协变量转变。我们从该数据中培训表演者的IL政策和错误探测器,在专家数据培训时,在多个多级任务中达到超过45%的任务成功率和85%的错误检测成功率。 CodeBase,DataSets,Visualization,以及更多可用的https://sites.google.com/view/il-for-mm/home。
translated by 谷歌翻译
By transferring knowledge from large, diverse, task-agnostic datasets, modern machine learning models can solve specific downstream tasks either zero-shot or with small task-specific datasets to a high level of performance. While this capability has been demonstrated in other fields such as computer vision, natural language processing or speech recognition, it remains to be shown in robotics, where the generalization capabilities of the models are particularly critical due to the difficulty of collecting real-world robotic data. We argue that one of the keys to the success of such general robotic models lies with open-ended task-agnostic training, combined with high-capacity architectures that can absorb all of the diverse, robotic data. In this paper, we present a model class, dubbed Robotics Transformer, that exhibits promising scalable model properties. We verify our conclusions in a study of different model classes and their ability to generalize as a function of the data size, model size, and data diversity based on a large-scale data collection on real robots performing real-world tasks. The project's website and videos can be found at robotics-transformer.github.io
translated by 谷歌翻译
虽然对理解计算机视觉中的手对象交互进行了重大进展,但机器人执行复杂的灵巧操纵仍然非常具有挑战性。在本文中,我们提出了一种新的平台和管道DEXMV(来自视频的Dexerous操纵)以进行模仿学习。我们设计了一个平台:(i)具有多指机器人手和(ii)计算机视觉系统的复杂灵巧操纵任务的仿真系统,以记录进行相同任务的人类手的大规模示范。在我们的小说管道中,我们从视频中提取3D手和对象姿势,并提出了一种新颖的演示翻译方法,将人类运动转换为机器人示范。然后,我们将多个仿制学习算法与演示进行应用。我们表明,示威活动确实可以通过大幅度提高机器人学习,并解决独自增强学习无法解决的复杂任务。具有视频的项目页面:https://yzqin.github.io/dexmv
translated by 谷歌翻译
人类和许多动物都表现出稳健的能力来操纵不同的物体,通常与他们的身体直接和有时与工具间接地进行操作。这种灵活性可能是由物理处理的基本一致性,例如接触和力闭合。通过将工具视为我们的机构的扩展来启发,我们提出了工具 - 作为实施例(TAE),用于处理同一表示空间中的手动对象和工具对象交互的基于工具的操作策略的参数化。结果是单一策略,可以在机器人上递归地应用于使用结束效果来操纵对象,并使用对象作为工具,即新的最终效果,以操纵其他对象。通过对不同实施例的共享经验进行掌握或推动,我们的政策表现出比训练单独的政策更高的性能。我们的框架可以利用将对启用工具的实施例的不同分辨率的所有经验用于每个操纵技能的单个通用策略。 https://sites.google.com/view/recursivemanipulation的视频
translated by 谷歌翻译
非结构化环境中的多步操纵任务对于学习的机器人来说非常具有挑战性。这些任务相互作用,包括可以获得的预期状态,可以实现整体任务和低级推理,以确定哪些行动将产生这些国家。我们提出了一种无模型的深度加强学习方法来学习多步理操作任务。我们介绍了一个基于视觉的模型架构的机器人操纵网络(ROMANNET),以了解动作值函数并预测操纵操作候选。我们定义基于Gaussian(TPG)奖励函数的任务进度,基于导致成功的动作原语的行动和实现整体任务目标的进展来计算奖励。为了平衡探索/剥削的比率,我们介绍了一个损失调整后的探索(LAE)政策,根据亏损估计的Boltzmann分配来确定来自行动候选人的行动。我们通过培训ROMANNET来展示我们方法的有效性,以了解模拟和现实世界中的几个挑战的多步机械管理任务。实验结果表明,我们的方法优于现有的方法,并在成功率和行动效率方面实现了最先进的性能。消融研究表明,TPG和LAE对多个块堆叠的任务特别有益。代码可用:https://github.com/skumra/romannet
translated by 谷歌翻译
模拟到现实的转移已成为一种流行且非常成功的方法,用于培训各种任务的机器人控制政策。但是,确定在模拟中训练的政策何时准备将其转移到物理世界通常是一个挑战。部署经过很少的模拟数据训练的策略可能会导致物理硬件的不可靠和危险行为。另一方面,模拟中的过度训练会导致策略过度拟合模拟器的视觉外观和动力学。在这项工作中,我们研究了自动确定在模拟中训练的策略何时可以可靠地转移到物理机器人的策略。我们在机器人织物操纵的背景下专门研究了这些思想,因为成功建模织物的动力学和视觉外观的困难,成功的SIM2Real转移尤其具有挑战性。导致织物平滑任务表明我们的切换标准与实际的性能很好地相关。特别是,我们基于信心的切换标准在培训总预算的55-60%之内达到了87.2-93.7%的平均最终面料覆盖率。有关代码和补充材料,请参见https://tinyurl.com/lsc-case。
translated by 谷歌翻译
Exploration in environments with sparse rewards has been a persistent problem in reinforcement learning (RL). Many tasks are natural to specify with a sparse reward, and manually shaping a reward function can result in suboptimal performance. However, finding a non-zero reward is exponentially more difficult with increasing task horizon or action dimensionality. This puts many real-world tasks out of practical reach of RL methods. In this work, we use demonstrations to overcome the exploration problem and successfully learn to perform long-horizon, multi-step robotics tasks with continuous control such as stacking blocks with a robot arm. Our method, which builds on top of Deep Deterministic Policy Gradients and Hindsight Experience Replay, provides an order of magnitude of speedup over RL on simulated robotics tasks. It is simple to implement and makes only the additional assumption that we can collect a small set of demonstrations. Furthermore, our method is able to solve tasks not solvable by either RL or behavior cloning alone, and often ends up outperforming the demonstrator policy.
translated by 谷歌翻译
在现实世界中,教授多指的灵巧机器人在现实世界中掌握物体,这是一个充满挑战的问题,由于其高维状态和动作空间。我们提出了一个机器人学习系统,该系统可以进行少量的人类示范,并学会掌握在某些被遮挡的观察结果的情况下掌握看不见的物体姿势。我们的系统利用了一个小型运动捕获数据集,并为多指的机器人抓手生成具有多种多样且成功的轨迹的大型数据集。通过添加域随机化,我们表明我们的数据集提供了可以将其转移到策略学习者的强大抓地力轨迹。我们训练一种灵活的抓紧策略,该策略将对象的点云作为输入,并预测连续的动作以从不同初始机器人状态掌握对象。我们在模拟中评估了系统对22多伏的浮动手的有效性,并在现实世界中带有kuka手臂的23多杆Allegro机器人手。从我们的数据集中汲取的政策可以很好地概括在模拟和现实世界中的看不见的对象姿势
translated by 谷歌翻译
我们调查视觉跨实施的模仿设置,其中代理商学习来自其他代理的视频(例如人类)的策略,示范相同的任务,但在其实施例中具有缺点差异 - 形状,动作,终效应器动态等。在这项工作中,我们证明可以从对这些差异强大的跨实施例证视频自动发现和学习基于视觉的奖励功能。具体而言,我们介绍了一种用于跨实施的跨实施的自我监督方法(XIRL),它利用时间周期 - 一致性约束来学习深度视觉嵌入,从而从多个专家代理的示范的脱机视频中捕获任务进度,每个都执行相同的任务不同的原因是实施例差异。在我们的工作之前,从自我监督嵌入产生奖励通常需要与参考轨迹对齐,这可能难以根据STARK实施例的差异来获取。我们凭经验显示,如果嵌入式了解任务进度,则只需在学习的嵌入空间中占据当前状态和目标状态之间的负距离是有用的,作为培训与加强学习的培训政策的奖励。我们发现我们的学习奖励功能不仅适用于在训练期间看到的实施例,而且还概括为完全新的实施例。此外,在将现实世界的人类示范转移到模拟机器人时,我们发现XIRL比当前最佳方法更具样本。 https://x-irl.github.io提供定性结果,代码和数据集
translated by 谷歌翻译
机器人可变形的操纵是机器人行业的挑战,因为可变形物体具有复杂和各种物体状态。预测这些对象状态并更新操纵计划是耗时的,并且计算昂贵。在本文中,我们提出了学习已知的服装配置,以允许机器人识别服装状态,并选择一个预先设计的操纵计划以使衣服变平。
translated by 谷歌翻译
电缆在许多环境中无处不在,但容易出现自我闭合和结,使它们难以感知和操纵。挑战通常会随着电缆长度而增加:长电缆需要更复杂的松弛管理和策略,以促进可观察性和可及性。在本文中,我们专注于使用双边机器人自动弄清长达3米的电缆。我们开发了新的运动原语,以有效地解开长电缆和专门用于此任务的新型Gripper Jaws。我们提出了缠结操作(SGTM)的滑动和抓握,该算法将这些原始物与RGBD视觉构成迭代性毫无障碍。SGTM在隔离的外手上取消了67%的成功率,图8节和更复杂的配置上的50%。可以在https://sites.google.com/view/rss-2022-untangling/home上找到补充材料,可视化和视频。
translated by 谷歌翻译
抓握是通过在一组触点上施加力和扭矩来挑选对象的过程。深度学习方法的最新进展允许在机器人对象抓地力方面快速进步。我们在过去十年中系统地调查了出版物,特别感兴趣使用最终效果姿势的所有6度自由度抓住对象。我们的综述发现了四种用于机器人抓钩的常见方法:基于抽样的方法,直接回归,强化学习和示例方法。此外,我们发现了围绕抓握的两种“支持方法”,这些方法使用深入学习来支持抓握过程,形状近似和负担能力。我们已经将本系统评论(85篇论文)中发现的出版物提炼为十个关键要点,我们认为对未来的机器人抓握和操纵研究至关重要。该调查的在线版本可从https://rhys-newbury.github.io/projects/6dof/获得
translated by 谷歌翻译