机器人技能系统旨在减少机器人设置时间的新制造任务。但是,对于灵巧,接触术的任务,通常很难找到正确的技能参数。一种策略是通过允许机器人系统直接学习任务来学习这些参数。对于学习问题,机器人操作员通常可以指定参数值的类型和范围。然而,鉴于他们先前的经验,机器人操作员应该能够通过提供有关在参数空间中找到最佳解决方案的知识猜测,从而进一步帮助学习过程。有趣的是,当前的机器人学习框架中没有利用这种先验知识。我们介绍了一种结合用户先验和贝叶斯优化的方法,以便在机器人部署时间快速优化机器人工业任务。我们在模拟中学习的三个任务以及直接在真实机器人系统上学习的两个任务中学习了我们的方法。此外,我们通过自动从良好表现的配置中自动构造先验来从相应的仿真任务中转移知识,以在真实系统上学习。为了处理潜在的任务目标,任务被建模为多目标问题。我们的结果表明,操作员的先验是用户指定和转移的,大大加快了富丽堂皇的阵线的发现,并且通常产生的最终性能远远超过了拟议的基线。
translated by 谷歌翻译
One of today's goals for industrial robot systems is to allow fast and easy provisioning for new tasks. Skill-based systems that use planning and knowledge representation have long been one possible answer to this. However, especially with contact-rich robot tasks that need careful parameter settings, such reasoning techniques can fall short if the required knowledge not adequately modeled. We show an approach that provides a combination of task-level planning and reasoning with targeted learning of skill parameters for a task at hand. Starting from a task goal formulated in PDDL, the learnable parameters in the plan are identified and an operator can choose reward functions and parameters for the learning process. A tight integration with a knowledge framework allows to form a prior for learning and the usage of multi-objective Bayesian optimization eases to balance aspects such as safety and task performance that can often affect each other. We demonstrate the efficacy and versatility of our approach by learning skill parameters for two different contact-rich tasks and show their successful execution on a real 7-DOF KUKA-iiwa.
translated by 谷歌翻译
增强学习(RL)是一个强大的数学框架,可让机器人通过反复试验学习复杂的技能。尽管在许多应用中取得了许多成功,但RL算法仍然需要数千个试验才能融合到高性能的政策,可以在学习时产生危险的行为,并且优化的政策(通常为神经网络建模)几乎可以在无法执行的解释时给出零的解释。任务。由于这些原因,在工业环境中采用RL并不常见。另一方面,行为树(BTS)可以提供一个策略表示,a)支持模块化和可综合的技能,b)允许轻松解释机器人动作,c)提供了有利的低维参数空间。在本文中,我们提出了一种新颖的算法,该算法可以学习模拟中BT策略的参数,然后在没有任何其他培训的情况下将其推广到物理机器人。我们利用了使用数字化工作站的物理模拟器,并使用黑盒优化器优化相关参数。我们在包括避免障碍物和富含接触的插入(孔洞)的任务中,通过7道型kuka-iiwa操纵器展示了我们方法的功效,其中我们的方法优于基准。
translated by 谷歌翻译
Learning generalizable insertion skills in a data-efficient manner has long been a challenge in the robot learning community. While the current state-of-the-art methods with reinforcement learning (RL) show promising performance in acquiring manipulation skills, the algorithms are data-hungry and hard to generalize. To overcome the issues, in this paper we present Prim-LAfD, a simple yet effective framework to learn and adapt primitive-based insertion skills from demonstrations. Prim-LAfD utilizes black-box function optimization to learn and adapt the primitive parameters leveraging prior experiences. Human demonstrations are modeled as dense rewards guiding parameter learning. We validate the effectiveness of the proposed method on eight peg-hole and connector-socket insertion tasks. The experimental results show that our proposed framework takes less than one hour to acquire the insertion skills and as few as fifteen minutes to adapt to an unseen insertion task on a physical robot.
translated by 谷歌翻译
为了执行机器人操纵任务,核心问题是确定满足任务要求的合适轨迹。存在各种计算此类轨迹的方法,是学习和优化主要驾驶技术。我们的作品建立在从示范中学习(LFD)范式的基础上,专家展示了动作,机器人学会了模仿它们。但是,专家演示不足以捕获各种任务规格,例如掌握对象的时间。在本文中,我们提出了一种新方法,以考虑LFD技能中的正式任务规格。确切地说,我们利用了系统的时间属性的一种表达形式信号时间逻辑(STL),以制定任务规格并使用黑盒优化(BBO)来相应地调整LFD技能。我们使用多个任务展示了我们的方法如何使用STL和BBO来解决LFD限制。
translated by 谷歌翻译
在本次调查中,我们介绍了执行需要不同于环境的操作任务的机器人的当前状态,使得机器人必须隐含地或明确地控制与环境的接触力来完成任务。机器人可以执行越来越多的人体操作任务,并且在1)主题上具有越来越多的出版物,其执行始终需要联系的任务,并且通过利用完美的任务来减轻环境来缓解不确定性信息,可以在没有联系的情况下进行。最近的趋势已经看到机器人在留下的人类留给人类,例如按摩,以及诸如PEG孔的经典任务中,对其他类似任务的概率更有效,更好的误差容忍以及更快的规划或学习任务。因此,在本调查中,我们涵盖了执行此类任务的机器人的当前阶段,从调查开始所有不同的联系方式机器人可以执行,观察这些任务是如何控制和表示的,并且最终呈现所需技能的学习和规划完成这些任务。
translated by 谷歌翻译
学习灵巧的操纵技巧是计算机图形和机器人技术的长期挑战,尤其是当任务涉及手,工具和物体之间的复杂而微妙的互动时。在本文中,我们专注于基于筷子的对象搬迁任务,这些任务很常见却又要求。成功的筷子技巧的关键是稳定地抓住棍棒,这也支持精致的演习。我们会自动发现贝叶斯优化(BO)和深钢筋学习(DRL)的身体有效的筷子姿势,它适用于多种握把的样式和手工形态,而无需示例数据。作为输入,我们要移动发现的抓紧姿势和所需的对象,我们构建了基于物理的手部控制器,以在两个阶段完成重定位任务。首先,运动轨迹是为筷子合成的,并处于运动计划阶段。我们运动策划者的关键组件包括一个握把模型,以选择用于抓住对象的合适筷子配置,以及一个轨迹优化模块,以生成无碰撞的筷子轨迹。然后,我们再次通过DRL训练基于物理的手部控制器,以跟踪运动计划者产生的所需运动轨迹。我们通过重新定位各种形状和尺寸的对象,以多种诱人的样式和多种手工形态的位置来展示框架的功能。与试图学习基于筷子的技能的香草系统相比,我们的系统实现了更快的学习速度和更好的控制鲁棒性,而无需抓紧姿势优化模块和/或没有运动学运动计划者。
translated by 谷歌翻译
可以通过组合单个机器人技能来有效地解决具有挑战性的操纵任务,该技巧必须用于具体的物理环境和手头的任务。对于人类程序员来说,这是耗时的,尤其是针对力控制的技能。为此,我们提出了阴影程序反演(SPI),这是一种直接从数据推断最佳技能参数的新方法。 SPI利用无监督的学习来训练辅助区分程序表示(“影子程序”),并通过基于梯度的模型反转实现参数推断。我们的方法使使用高效的一阶优化器可以推断出最初非差异技能的最佳参数,包括当前生产中使用的许多技能变体。 SPI零射击跨任务目标概括,这意味着不需要对阴影程序进行重新训练来推断不同任务变体的参数。我们在工业和家庭场景中评估了三个不同的机器人和技能框架的方法。代码和示例可在https://innolab.artiminds.com/icra2021上找到。
translated by 谷歌翻译
从意外的外部扰动中恢复的能力是双模型运动的基本机动技能。有效的答复包括不仅可以恢复平衡并保持稳定性的能力,而且在平衡恢复物质不可行时,也可以保证安全的方式。对于与双式运动有关的机器人,例如人形机器人和辅助机器人设备,可帮助人类行走,设计能够提供这种稳定性和安全性的控制器可以防止机器人损坏或防止伤害相关的医疗费用。这是一个具有挑战性的任务,因为它涉及用触点产生高维,非线性和致动系统的高动态运动。尽管使用基于模型和优化方法的前进方面,但诸如广泛领域知识的要求,诸如较大的计算时间和有限的动态变化的鲁棒性仍然会使这个打开问题。在本文中,为了解决这些问题,我们开发基于学习的算法,能够为两种不同的机器人合成推送恢复控制政策:人形机器人和有助于双模型运动的辅助机器人设备。我们的工作可以分为两个密切相关的指示:1)学习人形机器人的安全下降和预防策略,2)使用机器人辅助装置学习人类的预防策略。为实现这一目标,我们介绍了一套深度加强学习(DRL)算法,以学习使用这些机器人时提高安全性的控制策略。
translated by 谷歌翻译
由于其数据效率,贝叶斯优化已经出现在昂贵的黑盒优化的最前沿。近年来,关于新贝叶斯优化算法及其应用的发展的研究激增。因此,本文试图对贝叶斯优化的最新进展进行全面和更新的调查,并确定有趣的开放问题。我们将贝叶斯优化的现有工作分为九个主要群体,并根据所提出的算法的动机和重点。对于每个类别,我们介绍了替代模型的构建和采集功能的适应的主要进步。最后,我们讨论了开放的问题,并提出了有希望的未来研究方向,尤其是在分布式和联合优化系统中的异质性,隐私保护和公平性方面。
translated by 谷歌翻译
网络物理系统(CPSS)通常是复杂且至关重要的;因此,确保系统的要求,即规格,很难满足。基于仿真的CPS伪造是一种实用的测试方法,可用于通过仅要求模拟正在测试的系统来提高对系统正确性的信心。由于每个仿真通常在计算上进行密集,因此一个重要的步骤是减少伪造规范所需的仿真数量。我们研究贝叶斯优化(BO),一种样本效率的方法,它学习了一个替代模型,该模型描述了可能的输入信号的参数化与规范评估之间的关系。在本文中,我们改善了使用BO的伪造;首先采用两种突出的BO方法,一种适合本地替代模型,另一个适合当地的替代模型,利用了用户的先验知识。其次,本文介绍了伪造功能的采集函数的表述。基准评估显示,使用BO的局部替代模型来伪造以前难以伪造的基准示例的显着改善。在伪造过程中使用先验知识被证明是在模拟预算有限时特别重要的。对于某些基准问题,采集功能的选择清楚地影响了成功伪造所需的模拟数量。
translated by 谷歌翻译
行为树(BT)是一种在自主代理中(例如机器人或计算机游戏中的虚拟实体)之间在不同任务之间进行切换的方法。 BT是创建模块化和反应性的复杂系统的一种非常有效的方法。这些属性在许多应用中至关重要,这导致BT从计算机游戏编程到AI和机器人技术的许多分支。在本书中,我们将首先对BTS进行介绍,然后我们描述BTS与早期切换结构的关系,并且在许多情况下如何概括。然后,这些想法被用作一套高效且易于使用的设计原理的基础。安全性,鲁棒性和效率等属性对于自主系统很重要,我们描述了一套使用BTS的状态空间描述正式分析这些系统的工具。借助新的分析工具,我们可以对BTS如何推广早期方法的形式形式化。我们还显示了BTS在自动化计划和机器学习中的使用。最后,我们描述了一组扩展的工具,以捕获随机BT的行为,其中动作的结果由概率描述。这些工具可以计算成功概率和完成时间。
translated by 谷歌翻译
Dexterous操作是机器人中的一个具有挑战性和重要问题。虽然数据驱动方法是一个有希望的方法,但由于流行方法的样本效率低,当前基准测试需要模拟或广泛的工程支持。我们为Trifinger系统提供基准,这是一个开源机器人平台,用于灵巧操纵和2020年真正的机器人挑战的重点。在挑战中取得成功的基准方法可以一般被描述为结构性政策,因为它们结合了经典机器人和现代政策优化的元素。这种诱导偏差的包含促进样品效率,可解释性,可靠性和高性能。该基准测试的关键方面是验证跨模拟和实际系统的基线,对每个解决方案的核心特征进行彻底消融研究,以及作为操纵基准的挑战的回顾性分析。本工作的代码和演示视频可以在我们的网站上找到(https://sites.google.com/view/benchmark-rrc)。
translated by 谷歌翻译
在本文中,我们关注将基于能量的模型(EBM)作为运动优化的指导先验的问题。 EBM是一组神经网络,可以用合适的能量函数参数为参数的GIBBS分布来表示表达概率密度分布。由于其隐含性,它们可以轻松地作为优化因素或运动优化问题中的初始采样分布整合在一起,从而使它们成为良好的候选者,以将数据驱动的先验集成在运动优化问题中。在这项工作中,我们提出了一组所需的建模和算法选择,以使EBMS适应运动优化。我们调查了将其他正规化器在学习EBM中的好处,以将它们与基于梯度的优化器一起使用,并提供一组EBM架构,以学习用于操纵任务的可通用分布。我们提出了多种情况,可以将EBM集成以进行运动优化,并评估学到的EBM的性能,以指导模拟和真实机器人实验的指导先验。
translated by 谷歌翻译
机器人操纵器广泛用于现代制造过程。但是,它们在非结构化环境中的部署仍然是一个公开问题。为了应对现实世界操纵任务的多样性,复杂性和不确定性,必须开发灵活的框架,以减少环境特征的假设。近年来,加固学习(RL)为单臂机器人操纵表现出了很大的结果。然而,专注于双臂操纵的研究仍然很少见。根据经典的控制视角,解决这些任务通常涉及两个操纵器之间的相互作用的复杂建模,以及在任务中遇到的对象,以及在控制水平处耦合的两个机器人。相反,在这项工作中,我们探讨了无模型RL对双臂组件的适用性。当我们的目标是促进不限于双臂组件的方法,而是一般来说,双臂操纵,我们将尽量措施保持建模。因此,为了避免建模两个机器人与使用的组装工具之间的相互作用,我们呈现了一种模块化方法,其具有两个分散的单臂控制器,其使用单个集中式学习策略耦合。我们只使用稀疏奖励将建模努力降低到最低限度。我们的建筑使成功的装配和简单地从模拟转移到现实世界。我们展示了框架对双臂钉孔的有效性,并分析了不同动作空间的样品效率和成功率。此外,我们在处理位置不确定性时,我们比较不同的间隙和展示干扰恢复和稳健性的结果。最后,我们Zero-Shot Transfer策略在模拟中培训到现实世界并评估其性能。
translated by 谷歌翻译
任务(SOT)控件允许机器人同时实现根据错误空间中(在)平等约束方面提出的许多优先目标。由于这种方法在每个时间步长求解了一系列二次程序(QP),而无需考虑任何时间状态的演变,因此适用于处理局部干扰。但是,其限制在于处理需要非二次目标才能实现特定目标的情况,以及应对控制干扰的情况,需要在本地进行次优的行动。最近的作品通过利用有限状态机器(FSM)来解决这一缺点,以使机器人不会陷入本地最小值的方式组成任务。然而,反应性和模块化之间的内在折衷是FSM的表征使它们在动态环境中定义反应性行为不切实际。在这封信中,我们将SOT控制策略与行为树(BTS)相结合,该任务切换结构在反应性,模块化和可重复使用方面解决了FSM的某些局限性。 Franka Emika Panda 7-DOF操纵器的实验结果显示了我们框架的稳健性,该框架使机器人可以从SOT和BTS的反应性中受益。
translated by 谷歌翻译
有效推论是一种数学框架,它起源于计算神经科学,作为大脑如何实现动作,感知和学习的理论。最近,已被证明是在不确定性下存在国家估算和控制问题的有希望的方法,以及一般的机器人和人工代理人的目标驱动行为的基础。在这里,我们审查了最先进的理论和对国家估计,控制,规划和学习的积极推断的实现;描述当前的成就,特别关注机器人。我们展示了相关实验,以适应,泛化和稳健性而言说明其潜力。此外,我们将这种方法与其他框架联系起来,并讨论其预期的利益和挑战:使用变分贝叶斯推理具有功能生物合理性的统一框架。
translated by 谷歌翻译
深度学习的兴起导致机器人研究中的范式转变,有利于需要大量数据的方法。在物理平台上生成这样的数据集是昂贵的。因此,最先进的方法在模拟中学习,其中数据生成快速以及廉价并随后将知识转移到真实机器人(SIM-to-Real)。尽管变得越来越真实,但所有模拟器都是基于模型的施工,因此不可避免地不完善。这提出了如何修改模拟器以促进学习机器人控制政策的问题,并克服模拟与现实之间的不匹配,通常称为“现实差距”。我们对机器人学的SIM-Teal研究提供了全面的审查,专注于名为“域随机化”的技术,这是一种从随机仿真学习的方法。
translated by 谷歌翻译
算法配置(AC)与对参数化算法最合适的参数配置的自动搜索有关。目前,文献中提出了各种各样的交流问题变体和方法。现有评论没有考虑到AC问题的所有衍生物,也没有提供完整的分类计划。为此,我们引入分类法以分别描述配置方法的交流问题和特征。我们回顾了分类法的镜头中现有的AC文献,概述相关的配置方法的设计选择,对比方法和问题变体相互对立,并描述行业中的AC状态。最后,我们的评论为研究人员和从业人员提供了AC领域的未来研究方向。
translated by 谷歌翻译
在本文中,我们讨论了通过模仿教授双人操作任务的框架。为此,我们提出了一种从人类示范中学习合规和接触良好的机器人行为的系统和算法。提出的系统结合了入学控制和机器学习的见解,以提取控制政策,这些政策可以(a)从时空和空间中恢复并适应各种干扰,同时(b)有效利用与环境的物理接触。我们使用现实世界中的插入任务证明了方法的有效性,该任务涉及操纵对象和插入钉之间的多个同时接触。我们还研究了为这种双人设置收集培训数据的有效方法。为此,我们进行了人类受试者的研究,并分析用户报告的努力和精神需求。我们的实验表明,尽管很难提供,但在遥控演示中可用的其他力/扭矩信息对于阶段估计和任务成功至关重要。最终,力/扭矩数据大大提高了操纵鲁棒性,从而在多点插入任务中获得了90%的成功率。可以在https://bimanualmanipulation.com/上找到代码和视频
translated by 谷歌翻译