在许多情况下,需要精确的机器人操纵任务(插入,拧紧,精确选择,精确选择)。以前的方法在此类操作任务上实现了良好的性能。但是,这种方法通常需要乏味的校准或昂贵的传感器。 3D/RGB-D摄像机和扭矩/力传感器增加了机器人应用的成本,并且可能并不总是经济的。在这项工作中,我们旨在解决这些问题,但仅使用弱化和低成本的网络摄像头。我们提出了双眼对准学习(BAL),可以自动学习眼手协调和点对准能力以解决这四个任务。我们的工作重点是与未知的眼睛协调合作,并提出了自动执行眼镜校准的不同方法。该算法在模拟中进行了训练,并使用实用管道实现SIM2Real并在真实机器人上进行测试。我们的方法在四个任务上成本最低,取得了竞争性的效果。
translated by 谷歌翻译
虽然对理解计算机视觉中的手对象交互进行了重大进展,但机器人执行复杂的灵巧操纵仍然非常具有挑战性。在本文中,我们提出了一种新的平台和管道DEXMV(来自视频的Dexerous操纵)以进行模仿学习。我们设计了一个平台:(i)具有多指机器人手和(ii)计算机视觉系统的复杂灵巧操纵任务的仿真系统,以记录进行相同任务的人类手的大规模示范。在我们的小说管道中,我们从视频中提取3D手和对象姿势,并提出了一种新颖的演示翻译方法,将人类运动转换为机器人示范。然后,我们将多个仿制学习算法与演示进行应用。我们表明,示威活动确实可以通过大幅度提高机器人学习,并解决独自增强学习无法解决的复杂任务。具有视频的项目页面:https://yzqin.github.io/dexmv
translated by 谷歌翻译
最近,深度加固学习(RL)在机器人操作应用中表现出了一些令人印象深刻的成功。但是,由于样本效率和安全性问题,现实世界中的培训机器人是不平凡的。提出了SIM到现实的转移来解决上述问题,但引入了一个名为“现实差距”的新问题。在这项工作中,我们通过使用单个摄像头的输入来解决上述问题,为基于视觉的组装任务引入SIM模型学习框架,并在模拟环境中进行培训。我们提出了一种基于循环一致的生成对抗网络(CycleGAN)和力量控制转移方法来弥合现实差距的域适应方法。我们证明,在模拟环境中训练有训练的拟议框架可以成功地转移到真实的孔洞设置中。
translated by 谷歌翻译
许多工业组装任务都涉及孔洞孔,例如插入具有巨大公差的插入,即使在高度校准的机器人细胞中也很具有挑战性。可以采用视觉伺服来提高系统中不确定性的鲁棒性,但是,最先进的方法要么依赖于准确的3D模型用于合成渲染,要么手动参与训练数据。我们提出了一种新型的自我监督的视觉伺服涂方法,用于高精度钉插入,该方法是完全自动化的,不依赖合成数据。我们证明了其适用于将电子组件插入具有紧密公差的印刷电路板中。我们表明,可以通过我们提出的视觉伺服方法在强大但缓慢的基于力的插入策略之前大幅度地加速插入孔的插入,该方法的配置是完全自主的。
translated by 谷歌翻译
基于视觉的机器人组装是一项至关重要但具有挑战性的任务,因为与多个对象的相互作用需要高水平的精度。在本文中,我们提出了一个集成的6D机器人系统,以感知,掌握,操纵和组装宽度,以紧密的公差。为了提供仅在现成的RGB解决方案的情况下,我们的系统建立在单眼6D对象姿势估计网络上,该估计网络仅使用合成图像训练,该图像利用了基于物理的渲染。随后,提出了姿势引导的6D转换以及无碰撞组装来构建具有任意初始姿势的任何设计结构。我们的新型3轴校准操作通过解开6D姿势估计和机器人组件进一步提高了精度和鲁棒性。定量和定性结果都证明了我们提出的6D机器人组装系统的有效性。
translated by 谷歌翻译
Complex and contact-rich robotic manipulation tasks, particularly those that involve multi-fingered hands and underactuated object manipulation, present a significant challenge to any control method. Methods based on reinforcement learning offer an appealing choice for such settings, as they can enable robots to learn to delicately balance contact forces and dexterously reposition objects without strong modeling assumptions. However, running reinforcement learning on real-world dexterous manipulation systems often requires significant manual engineering. This negates the benefits of autonomous data collection and ease of use that reinforcement learning should in principle provide. In this paper, we describe a system for vision-based dexterous manipulation that provides a "programming-free" approach for users to define new tasks and enable robots with complex multi-fingered hands to learn to perform them through interaction. The core principle underlying our system is that, in a vision-based setting, users should be able to provide high-level intermediate supervision that circumvents challenges in teleoperation or kinesthetic teaching which allow a robot to not only learn a task efficiently but also to autonomously practice. Our system includes a framework for users to define a final task and intermediate sub-tasks with image examples, a reinforcement learning procedure that learns the task autonomously without interventions, and experimental results with a four-finger robotic hand learning multi-stage object manipulation tasks directly in the real world, without simulation, manual modeling, or reward engineering.
translated by 谷歌翻译
非结构化环境中的多步操纵任务对于学习的机器人来说非常具有挑战性。这些任务相互作用,包括可以获得的预期状态,可以实现整体任务和低级推理,以确定哪些行动将产生这些国家。我们提出了一种无模型的深度加强学习方法来学习多步理操作任务。我们介绍了一个基于视觉的模型架构的机器人操纵网络(ROMANNET),以了解动作值函数并预测操纵操作候选。我们定义基于Gaussian(TPG)奖励函数的任务进度,基于导致成功的动作原语的行动和实现整体任务目标的进展来计算奖励。为了平衡探索/剥削的比率,我们介绍了一个损失调整后的探索(LAE)政策,根据亏损估计的Boltzmann分配来确定来自行动候选人的行动。我们通过培训ROMANNET来展示我们方法的有效性,以了解模拟和现实世界中的几个挑战的多步机械管理任务。实验结果表明,我们的方法优于现有的方法,并在成功率和行动效率方面实现了最先进的性能。消融研究表明,TPG和LAE对多个块堆叠的任务特别有益。代码可用:https://github.com/skumra/romannet
translated by 谷歌翻译
To build general robotic agents that can operate in many environments, it is often imperative for the robot to collect experience in the real world. However, this is often not feasible due to safety, time, and hardware restrictions. We thus propose leveraging the next best thing as real-world experience: internet videos of humans using their hands. Visual priors, such as visual features, are often learned from videos, but we believe that more information from videos can be utilized as a stronger prior. We build a learning algorithm, VideoDex, that leverages visual, action, and physical priors from human video datasets to guide robot behavior. These actions and physical priors in the neural network dictate the typical human behavior for a particular robot task. We test our approach on a robot arm and dexterous hand-based system and show strong results on various manipulation tasks, outperforming various state-of-the-art methods. Videos at https://video-dex.github.io
translated by 谷歌翻译
机器人钉孔组装是机器人自动化研究中的重要任务。加强学习(RL)与深度神经网络(DNN)相结合,导致了这一领域的非凡成就。但是,在融合应用程序的独特环境和任务要求下,当前基于RL的方法几乎无法表现出色。因此,我们提出了一种新设计的基于RL的方法。此外,与其他方法不同,我们专注于DNN的结构而不是RL模型的创新。从RGB摄像机和力/扭矩(F/T)传感器中输入的数据,将其输入到多输入分支网络中,并且当前状态中的最佳动作是由网络输出的。所有训练和实验都是在现实的环境中进行的,从实验结果中,这种多传感器融合方法已显示在不确定和不稳定的环境中具有0.1mm精度的刚性钉钉组装任务中很好地工作。
translated by 谷歌翻译
我们通过在野外观看人类来解决学习问题。尽管在现实世界中学习的传统方法和强化学习对于学习是有希望的,但它们要么是效率低下的样本,要么被限制在实验室环境中。同时,处理被动的,非结构化的人类数据已经取得了很大的成功。我们建议通过有效的一声机器人学习算法解决此问题,该算法围绕第三人称的角度学习。我们称我们的方法旋转:野生人类模仿机器人学习。旋转对人类演示者的意图提取先前,并使用它来初始化代理商的策略。我们介绍了一种有效的现实世界政策学习方案,该方案可以使用交互作用进行改进。我们的主要贡献是一种简单的基于抽样的策略优化方法,这是一种对齐人和机器人视频的新型目标功能,以及一种提高样本效率的探索方法。我们在现实世界中展示了单一的概括和成功,其中包括野外的20个不同的操纵任务。视频并在https://human2robot.github.io上进行交谈
translated by 谷歌翻译
视网膜手术是一种复杂的医疗程序,需要特殊的专业知识和灵巧。为此目的,目前正在开发几种机器人平台,以实现或改善显微外科任务的结果。由于这种机器人的控制通常被设计用于在视网膜附近导航,成功的套管针对接并将仪器插入眼睛中代表了一种额外的认知努力,因此是机器人视网膜手术中的开放挑战之一。为此目的,我们为自主套管针对接的平台结合了计算机愿景和机器人设置。灵感来自古巴Colibri(蜂鸟)使用只使用视觉将其喙对齐,我们将相机安装到机器人系统的内逸线器上。通过估计套管针的位置和姿势,机器人能够自主地对齐并导航仪器朝向贸易圈的入口点(TEP),最后执行插入。我们的实验表明,该方法能够精确地估计套管针的位置和姿势,实现可重复的自主对接。这项工作的目的是降低机器人设置准备在手术任务之前的复杂性,因此增加了系统集成到临床工作流程的直观。
translated by 谷歌翻译
机器人操纵器广泛用于现代制造过程。但是,它们在非结构化环境中的部署仍然是一个公开问题。为了应对现实世界操纵任务的多样性,复杂性和不确定性,必须开发灵活的框架,以减少环境特征的假设。近年来,加固学习(RL)为单臂机器人操纵表现出了很大的结果。然而,专注于双臂操纵的研究仍然很少见。根据经典的控制视角,解决这些任务通常涉及两个操纵器之间的相互作用的复杂建模,以及在任务中遇到的对象,以及在控制水平处耦合的两个机器人。相反,在这项工作中,我们探讨了无模型RL对双臂组件的适用性。当我们的目标是促进不限于双臂组件的方法,而是一般来说,双臂操纵,我们将尽量措施保持建模。因此,为了避免建模两个机器人与使用的组装工具之间的相互作用,我们呈现了一种模块化方法,其具有两个分散的单臂控制器,其使用单个集中式学习策略耦合。我们只使用稀疏奖励将建模努力降低到最低限度。我们的建筑使成功的装配和简单地从模拟转移到现实世界。我们展示了框架对双臂钉孔的有效性,并分析了不同动作空间的样品效率和成功率。此外,我们在处理位置不确定性时,我们比较不同的间隙和展示干扰恢复和稳健性的结果。最后,我们Zero-Shot Transfer策略在模拟中培训到现实世界并评估其性能。
translated by 谷歌翻译
我们介绍了栖息地2.0(H2.0),这是一个模拟平台,用于培训交互式3D环境和复杂物理的场景中的虚拟机器人。我们为体现的AI堆栈 - 数据,仿真和基准任务做出了全面的贡献。具体来说,我们提出:(i)复制:一个由艺术家的,带注释的,可重新配置的3D公寓(匹配真实空间)与铰接对象(例如可以打开/关闭的橱柜和抽屉); (ii)H2.0:一个高性能物理学的3D模拟器,其速度超过8-GPU节点上的每秒25,000个模拟步骤(实时850x实时),代表先前工作的100倍加速;和(iii)家庭助理基准(HAB):一套辅助机器人(整理房屋,准备杂货,设置餐桌)的一套常见任务,以测试一系列移动操作功能。这些大规模的工程贡献使我们能够系统地比较长期结构化任务中的大规模加固学习(RL)和经典的感官平面操作(SPA)管道,并重点是对新对象,容器和布局的概括。 。我们发现(1)与层次结构相比,(1)平面RL政策在HAB上挣扎; (2)具有独立技能的层次结构遭受“交接问题”的困扰,(3)水疗管道比RL政策更脆。
translated by 谷歌翻译
强化学习表现出巨大的潜力,可以解决复杂的接触率丰富的机器人操纵任务。但是,在现实世界中使用RL的安全是一个关键问题,因为在培训期间或看不见的情况下,RL政策是不完善的,可能会发生意外的危险碰撞。在本文中,我们提出了一个接触安全的增强增强学习框架,用于接触良好的机器人操纵,该框架在任务空间和关节空间中保持安全性。当RL政策导致机器人组与环境之间的意外冲突时,我们的框架能够立即检测到碰撞并确保接触力量很小。此外,最终效应器被强制执行,同时对外部干扰保持强大的态度。我们训练RL政策以模拟并将其转移到真正的机器人中。关于机器人擦拭任务的现实世界实验表明,即使在策略处于看不见的情况下,我们的方法也能够使接触在任务空间和关节空间中保持较小,同时拒绝对主要任务的干扰。
translated by 谷歌翻译
体现了AI已经显示出对模拟中的丰富机器人任务的结果,包括视觉导航和操纵。事先工作通常与最短的路径一起追求高成功率,同时在很大程度上忽略了互动期间碰撞引起的问题。这种缺乏优先级识别是可以理解的:在模拟环境中,不存在破坏虚拟对象的固有成本。因此,尽管最终成功,但训练有素的代理经常具有与对象的灾难性碰撞。在机器人社区中,碰撞成本大,碰撞避免是一项长期的和关键的话题,以确保机器人可以安全地部署在现实世界中。在这项工作中,我们将第一步迈向碰撞/干扰体现AI代理,用于视觉移动操作,促进真正的机器人安全部署。我们在核心开发了一种新的干扰 - 避免方法是扰动预测的辅助任务。当与干扰罚款结合时,我们的辅助任务通过知识蒸馏到代理商的知识蒸馏而大大提高了样本效率和最终性能。我们对Manipulathor的实验表明,在用新型物体的测试场景上,我们的方法将成功率提高了61.7%至85.6%,而且在原始基线的29.8%至50.2%的情况下,成功率没有干扰。广泛的消融研究表明了我们流水线方法的价值。项目网站位于https://sites.google.com/view/disturb-free
translated by 谷歌翻译
3D视觉输入的对象操纵对构建可宽大的感知和政策模型构成了许多挑战。然而,现有基准中的3D资产主要缺乏与拓扑和几何中的现实世界内复杂的3D形状的多样性。在这里,我们提出了Sapien操纵技能基准(Manishill)以在全物理模拟器中的各种物体上基准操纵技巧。 Manishill中的3D资产包括大型课堂内拓扑和几何变化。仔细选择任务以涵盖不同类型的操纵挑战。 3D Vision的最新进展也使我们认为我们应该定制基准,以便挑战旨在邀请研究3D深入学习的研究人员。为此,我们模拟了一个移动的全景摄像头,返回以自我为中心的点云或RGB-D图像。此外,我们希望Manishill是为一个对操纵研究感兴趣的广泛研究人员提供服务。除了支持从互动的政策学习,我们还支持学习 - 从演示(LFD)方法,通过提供大量的高质量演示(〜36,000个成功的轨迹,总共〜1.5米点云/ RGB-D帧)。我们提供使用3D深度学习和LFD算法的基线。我们的基准(模拟器,环境,SDK和基线)的所有代码都是开放的,并且将基于基准举办跨学科研究人员面临的挑战。
translated by 谷歌翻译
第三人称视频的逆增强学习(IRL)研究表明,令人鼓舞的结果是消除了对机器人任务的手动奖励设计的需求。但是,大多数先前的作品仍然受到相对受限域视频领域的培训的限制。在本文中,我们认为第三人称IRL的真正潜力在于增加视频的多样性以更好地扩展。为了从不同的视频中学习奖励功能,我们建议在视频上执行图形抽象,然后在图表空间中进行时间匹配,以衡量任务进度。我们的见解是,可以通过形成图形的实体交互来描述任务,并且该图抽象可以帮助删除无关紧要的信息,例如纹理,从而产生更强大的奖励功能。我们评估了我们的方法,即Graphirl,关于X魔术中的跨体制学习,并从人类的示范中学习进行真实机器人操纵。我们对以前的方法表现出对各种视频演示的鲁棒性的显着改善,甚至比真正的机器人推动任务上的手动奖励设计获得了更好的结果。视频可从https://sateeshkumar21.github.io/graphirl获得。
translated by 谷歌翻译
具有通用机器人臂的外星漫游者在月球和行星勘探中具有许多潜在的应用。将自主权引入此类系统是需要增加流浪者可以花费收集科学数据并收集样本的时间的。这项工作调查了深钢筋学习对月球上对象的基于视觉的机器人抓握的适用性。创建了一个具有程序生成数据集的新型模拟环境,以在具有不平衡的地形和严酷照明的非结构化场景中训练代理。然后,采用了无模型的非政治演员 - 批评算法来端对端学习,该策略将紧凑的OCTREE观察结果直接映射到笛卡尔空间中的连续行动。实验评估表明,与传统使用的基于图像的观测值相比,3D数据表示可以更有效地学习操纵技能。域随机化改善了以前看不见的物体和不同照明条件的新场景的学识关系的概括。为此,我们通过评估月球障碍设施中的真实机器人上的训练有素的代理来证明零射击的SIM到现实转移。
translated by 谷歌翻译
Figure 1: A five-fingered humanoid hand trained with reinforcement learning manipulating a block from an initial configuration to a goal configuration using vision for sensing.
translated by 谷歌翻译
工业连接器插入任务需要亚毫米定位并掌握插头的姿势补偿。因此,对插头和插座之间的相对姿势的高度准确估计对于完成任务至关重要。世界模型是视觉运动控制的有前途的技术,因为它们获得了适当的状态表示,以共同优化特征提取和潜在动力学模型。最近的研究表明,Newtonianvae是一种世界模型的一种类型,可获得等同于从图像到物理坐标的映射的潜在空间。在牛顿维尔的潜在空间中可以实现比例控制。但是,在物理环境中应用牛顿台上的牛顿工业任务是一个开放的问题。此外,现有的框架不考虑在获得的潜在空间中的掌握姿势补偿。在这项工作中,我们提出了对触觉敏感的Newtonianvae,并将其应用于物理环境中带有姿势变化的USB连接器插入。我们采用了凝胶型触觉传感器,并估计了插头的掌握姿势补偿的插入位置。我们的方法以端到端的方式训练潜在空间,不需要其他工程和注释。在获得的潜在空间中可以使用简单的比例控制。此外,我们证明了原始的牛顿病在某些情况下失败了,并证明了域知识诱导可以提高模型的准确性。可以使用机器人规范和掌握姿势误差测量轻松获得此域知识。我们证明了我们提出的方法在物理环境中的USB连接器插入任务中实现了100 \%的成功率和0.3 mm的定位精度。它优于SOTA CNN的两阶段目标姿势回归,并使用坐标转换掌握了姿势补偿。
translated by 谷歌翻译