PDDLStream solvers have recently emerged as viable solutions for Task and Motion Planning (TAMP) problems, extending PDDL to problems with continuous action spaces. Prior work has shown how PDDLStream problems can be reduced to a sequence of PDDL planning problems, which can then be solved using off-the-shelf planners. However, this approach can suffer from long runtimes. In this paper we propose LAZY, a solver for PDDLStream problems that maintains a single integrated search over action skeletons, which gets progressively more geometrically informed as samples of possible motions are lazily drawn during motion planning. We explore how learned models of goal-directed policies and current motion sampling data can be incorporated in LAZY to adaptively guide the task planner. We show that this leads to significant speed-ups in the search for a feasible solution evaluated over unseen test environments of varying numbers of objects, goals, and initial conditions. We evaluate our TAMP approach by comparing to existing solvers for PDDLStream problems on a range of simulated 7DoF rearrangement/manipulation problems.
translated by 谷歌翻译
机器人中的任务和运动规划问题通常将符号规划与连续状态和动作变量相处的运动优化相结合,从而满足满足在任务变量上强加的逻辑约束的轨迹。符号规划可以用任务变量的数量呈指数级级,因此最近的工作诸如PDDLSTREAM的工作侧重于乐观规划,以逐步增长的对象和事实,直到找到可行的轨迹。然而,这种设置以宽度第一的方式被彻底地且均匀地扩展,无论手头的问题的几何结构如何,这使得具有大量物体的长时间地理推理,这令人难以耗时。为了解决这个问题,我们提出了一个几何通知的符号规划员,以最佳的方式扩展了一组对象和事实,优先由从现有搜索计算中学到的基于神经网络的基于神经网络的分数。我们在各种问题上评估我们的方法,并展示了在大型或困难情景中规划的提高能力。我们还在几个块堆叠操作任务中将算法应用于7DOF机器人手臂。
translated by 谷歌翻译
在机器人域中,学习和计划因连续的状态空间,连续的动作空间和较长的任务范围而变得复杂。在这项工作中,我们通过神经符号关系过渡模型(NSRTS)解决了这些挑战,这是一种具有数据效率学习的新型模型,与强大的机器人计划方法兼容,并且可以推广到对象上。NSRT具有符号和神经成分,实现了双重计划方案,其中外循环中的符号AI规划指导内部循环中的神经模型的连续计划。四个机器人计划域中的实验表明,仅在数十或数百个培训情节之后就可以学习NSRT,然后用于快速规划的新任务,这些任务需要高达60个动作,并且涉及比培训期间看到的更多物体。视频:https://tinyurl.com/chitnis-nsrts
translated by 谷歌翻译
在环境抽象中进行高级搜索来指导低水平决策,这是一种有效的方法,是解决连续状态和行动空间中的长途任务的有效方法。最近的工作表明,可以以符号操作员和神经采样器的形式学习使这种二聚体计划的动作抽象,并且鉴于实现已知目标的符号谓词和演示。在这项工作中,我们表明,在动作往往会导致大量谓词发生变化的环境中,现有的方法不足。为了解决这个问题,我们建议学习具有忽略效果的操作员。激发我们方法的关键思想是,对谓词的每一个观察到的变化进行建模是不必要的。唯一需要建模的更改是高级搜索以实现指定目标所需的更改。在实验上,我们表明我们的方法能够学习具有忽略六个混合机器人域效果的操作员,这些企业能够解决一个代理,以解决具有不同初始状态,目标和对象数量的新任务变化,比几个基线要高得多。
translated by 谷歌翻译
虽然现代政策优化方法可以从感官数据进行复杂的操作,但他们对延长时间的地平线和多个子目标的问题挣扎。另一方面,任务和运动计划(夯实)方法规模缩放到长视野,但它们是计算昂贵的并且需要精确跟踪世界状态。我们提出了一种借鉴两种方法的方法:我们训练一项政策来模仿夯实求解器的输出。这产生了一种前馈策略,可以从感官数据完成多步任务。首先,我们构建一个异步分布式夯实求解器,可以快速产生足够的监督数据以进行模仿学习。然后,我们提出了一种分层策略架构,让我们使用部分训练的控制策略来加速夯实求解器。在具有7-自由度的机器人操纵任务中,部分训练有素的策略将规划所需的时间减少到2.6倍。在这些任务中,我们可以学习一个解决方案4对象拣选任务88%的策略从对象姿态观测和解决机器人9目标基准79%从RGB图像的时间(取平均值)跨越9个不同的任务)。
translated by 谷歌翻译
多步兵的操纵任务(例如打开推动的儿童瓶)需要机器人来做出各种计划选择,这些选择受到在任务期间施加力量的要求所影响的各种计划。机器人必须推荐与动作顺序相关的离散和连续选择,例如是否拾取对象以及每个动作的参数,例如如何掌握对象。为了实现计划和执行有力的操纵,我们通过限制了扭矩和摩擦限制,通过拟议的有力的运动链约束来增强现有的任务和运动计划者。在三个领域,打开一个防儿童瓶,扭动螺母并切割蔬菜,我们演示了系统如何从组合组合组合中进行选择。我们还展示了如何使用成本敏感的计划来查找强大的策略和参数物理参数的不确定性。
translated by 谷歌翻译
在具有连续以对象的状态,连续的动作,长距离和稀疏反馈的机器人环境中,决策是具有挑战性的。诸如任务和运动计划(TAMP)之类的层次结构方法通过将决策分解为两个或更多级别的抽象来解决这些挑战。在给出演示和符号谓词的环境中,先前的工作已经显示了如何通过手动设计的参数化策略来学习符号操作员和神经采样器。我们的主要贡献是一种与操作员和采样器结合使用的参数化策略的方法。这些组件被包装到模块化神经符号技能中,并与搜索 - 然后样本tamp一起测序以解决新任务。在四个机器人域的实验中,我们表明我们的方法 - 具有神经符号技能的双重计划 - 可以解决具有不同初始状态,目标和对象不同的各种任务,表现优于六个基线和消融。视频:https://youtu.be/pbfzp8rpugg代码:https://tinyurl.com/skill-learning
translated by 谷歌翻译
Robotic planning in real-world scenarios typically requires joint optimization of logic and continuous variables. A core challenge to combine the strengths of logic planners and continuous solvers is the design of an efficient interface that informs the logical search about continuous infeasibilities. In this paper we present a novel iterative algorithm that connects logic planning with nonlinear optimization through a bidirectional interface, achieved by the detection of minimal subsets of nonlinear constraints that are infeasible. The algorithm continuously builds a database of graphs that represent (in)feasible subsets of continuous variables and constraints, and encodes this knowledge in the logical description. As a foundation for this algorithm, we introduce Planning with Nonlinear Transition Constraints (PNTC), a novel planning formulation that clarifies the exact assumptions our algorithm requires and can be applied to model Task and Motion Planning (TAMP) efficiently. Our experimental results show that our framework significantly outperforms alternative optimization-based approaches for TAMP.
translated by 谷歌翻译
在对关节对象表示表示的工作之后,引入了面向对象的网络(FOON)作为机器人的知识图表示。以双方图的形式,Foon包含符号(高级)概念,可用于机器人对任务及其对象级别计划的环境的理解及其环境。在本文之前,几乎没有做任何事情来证明如何通过任务树检索从FOON获取的任务计划如何由机器人执行,因为Foon中的概念太抽象了,无法立即执行。我们提出了一种分层任务计划方法,该方法将FOON图转换为基于PDDL的域知识表示操作计划的表示。由于这个过程,可以获取一个任务计划,即机器人可以从头到尾执行,以利用动态运动原始功能(DMP)的形式使用动作上下文和技能。我们演示了从计划到使用Coppeliasim执行的整个管道,并展示如何将学习的动作上下文扩展到从未见过的场景。
translated by 谷歌翻译
在AI研究中,合成动作计划通常使用了抽象地指定由于动作而导致的动作的描述性模型,并针对有效计算状态转换来定制。然而,执行计划的动作已经需要运行模型,其中使用丰富的计算控制结构和闭环在线决策来指定如何在非预定的执行上下文中执行动作,对事件作出反应并适应展开情况。整合行动和规划的审议演员通常需要将这两种模型一起使用 - 在尝试开发不同的型号时会导致问题,验证它们的一致性,并顺利交错和规划。作为替代方案,我们定义和实施综合作用和规划系统,其中规划和行为使用相同的操作模型。这些依赖于提供丰富的控制结构的分层任务导向的细化方法。称为反应作用发动机(RAE)的作用组件由众所周知的PRS系统启发。在每个决定步骤中,RAE可以从计划者获取建议,以获得关于效用功能的近乎最佳选择。随时计划使用像UPOM的UCT类似的蒙特卡罗树搜索程序,其推出是演员操作模型的模拟。我们还提供与RAE和UPOM一起使用的学习策略,从在线代理体验和/或模拟计划结果,从决策背景下映射到方法实例以及引导UPOM的启发式函数。我们展示了富豪朝向静态域的最佳方法的渐近融合,并在实验上展示了UPOM和学习策略显着提高了作用效率和鲁棒性。
translated by 谷歌翻译
3D场景图(3DSG)是新兴的描述;统一符号,拓扑和度量场景表示。但是,典型的3DSG即使在小环境中包含数百个对象和符号。完整图上的任务计划是不切实际的。我们构建任务法,这是第一个大规模的机器人任务计划基准3DSGS。尽管大多数基准在该领域的基准努力都集中在基于愿景的计划上,但我们系统地研究了符号计划,以使计划绩效与视觉表示学习相结合。我们观察到,在现有方法中,基于经典和学习的计划者都不能在完整的3DSG上实时计划。实现实时计划需要(a)稀疏3DSG进行可拖动计划的进展,以及(b)设计更好利用3DSG层次结构的计划者。针对前一个目标,我们提出了磨砂膏,这是一种由任务条件的3DSG稀疏方法。使经典计划者能够匹配,在某些情况下可以超过最新的学习计划者。我们提出寻求后一个目标,这是一种使学习计划者能够利用3DSG结构的程序,从而减少了当前最佳方法所需的重型查询数量的数量级。我们将开放所有代码和基线,以刺激机器人任务计划,学习和3DSGS的交叉点进行进一步的研究。
translated by 谷歌翻译
我们提出了一种新颖的通用方法,该方法可以找到动作的,离散的对象和效果类别,并为非平凡的行动计划建立概率规则。我们的机器人使用原始操作曲目与对象进行交互,该曲目被认为是早先获取的,并观察到它在环境中可以产生的效果。为了形成动作界面的对象,效果和关系类别,我们在预测性的,深的编码器折线网络中采用二进制瓶颈层,该网络以场景的形象和应用为输入应用的动作,并在场景中生成结果效果在像素坐标中。学习后,二进制潜在向量根据机器人的相互作用体验代表动作驱动的对象类别。为了将神经网络代表的知识提炼成对符号推理有用的规则,对决策树进行了训练以复制其解码器功能。概率规则是从树的决策路径中提取的,并在概率计划域定义语言(PPDDL)中表示,允许现成的计划者根据机器人的感觉运动体验所提取的知识进行操作。模拟机器人操纵器的建议方法的部署使发现对象属性的离散表示,例如``滚动''和``插入''。反过来,将这些表示形式用作符号可以生成有效的计划来实现目标,例如建造所需高度的塔楼,证明了多步物体操纵方法的有效性。最后,我们证明了系统不仅通过评估其对MNIST 8个式式域的适用性来限于机器人域域,在该域​​中,学习的符号允许生成将空图块移至任何给定位置的计划。
translated by 谷歌翻译
从制造环境到个人房屋的最终用户任务的巨大多样性使得预编程机器人非常具有挑战性。事实上,教学机器人从划痕的新行动可以重复使用以前看不见的任务仍然是一个艰难的挑战,一般都留给了机器人专家。在这项工作中,我们展示了Iropro,这是一个交互式机器人编程框架,允许最终用户没有技术背景,以教授机器人新的可重用行动。我们通过演示和自动规划技术将编程结合起来,以允许用户通过通过动力学示范教授新的行动来构建机器人的知识库。这些行动是概括的,并重用任务计划程序来解决用户定义的先前未经调查的问题。我们将iropro作为Baxter研究机器人的端到端系统实施,同时通过演示通过示范来教授低级和高级操作,以便用户可以通过图形用户界面自定义以适应其特定用例。为了评估我们的方法的可行性,我们首先进行了预设计实验,以更好地了解用户采用所涉及的概念和所提出的机器人编程过程。我们将结果与设计后实验进行比较,在那里我们进行了用户学习,以验证我们对真实最终用户的方法的可用性。总体而言,我们展示了具有不同编程水平和教育背景的用户可以轻松学习和使用Iropro及其机器人编程过程。
translated by 谷歌翻译
在工厂或房屋等环境中协助我们的机器人必须学会使用对象作为执行任务的工具,例如使用托盘携带对象。我们考虑了学习常识性知识何时可能有用的问题,以及如何与其他工具一起使用其使用以完成由人类指示的高级任务。具体而言,我们引入了一种新型的神经模型,称为Tooltango,该模型首先预测要使用的下一个工具,然后使用此信息来预测下一项动作。我们表明,该联合模型可以告知学习精细的策略,从而使机器人可以顺序使用特定工具,并在使模型更加准确的情况下增加了重要价值。 Tooltango使用图神经网络编码世界状态,包括对象和它们之间的符号关系,并使用人类教师的演示进行了培训,这些演示是指导物理模拟器中的虚拟机器人的演示。该模型学会了使用目标和动作历史的知识来参加场景,最终将符号动作解码为执行。至关重要的是,我们解决了缺少一些已知工具的看不见的环境的概括,但是存在其他看不见的工具。我们表明,通过通过从知识库中得出的预训练的嵌入来增强环境的表示,该模型可以有效地将其推广到新的环境中。实验结果表明,在预测具有看不见对象的新型环境中模拟移动操纵器的成功符号计划时,至少48.8-58.1%的绝对改善对基准的绝对改善。这项工作朝着使机器人能够快速合成复杂任务的强大计划的方向,尤其是在新颖的环境中
translated by 谷歌翻译
顺序决策的一种流行方法是,以机器学习(ML)方法(如策略学习)进行基于模拟器的搜索。另一方面,如果有完整的声明模型,模型放松启发式方法可以有效地指导搜索。在这项工作中,我们考虑了从业人员如何在无法使用完整符号模型的设置上改善基于ML的黑盒计划。我们表明,指定一个不完整的条带模型,该模型仅描述了问题的一部分,才能使用放松启发式方法。我们对几个计划域的发现表明,这是改善基于ML的黑盒计划的有效方法,而不是收集更多数据或调整ML架构。
translated by 谷歌翻译
In the process of materials discovery, chemists currently need to perform many laborious, time-consuming, and often dangerous lab experiments. To accelerate this process, we propose a framework for robots to assist chemists by performing lab experiments autonomously. The solution allows a general-purpose robot to perform diverse chemistry experiments and efficiently make use of available lab tools. Our system can load high-level descriptions of chemistry experiments, perceive a dynamic workspace, and autonomously plan the required actions and motions to perform the given chemistry experiments with common tools found in the existing lab environment. Our architecture uses a modified PDDLStream solver for integrated task and constrained motion planning, which generates plans and motions that are guaranteed to be safe by preventing collisions and spillage. We present a modular framework that can scale to many different experiments, actions, and lab tools. In this work, we demonstrate the utility of our framework on three pouring skills and two foundational chemical experiments for materials synthesis: solubility and recrystallization. More experiments and updated evaluations can be found at https://ac-rad.github.io/arc-icra2023.
translated by 谷歌翻译
我们设计一个3D场景图表示,触点图+(CG+),以进行有效的顺序任务计划。此触点基于图形的表示,带有类似谓词的属性,带有简洁的几何信息和有效的机器人风格交互作用摘要场景布局。可以通过随机优化方法的遗传算法生成触点图上自然指定的目标配置。然后,通过计算初始触点图和目标配置之间的图形编辑距离(GED)来初始化任务计划,该图形配置生成了与可能的机器人操作相对应的图表编辑操作。我们通过强加约束来调节图形编辑操作的时间可行性,确保有效的任务和运动对应关系来最终确定任务计划。在一系列的模拟和实验中,机器人成功完成了使用常规规划语言(如计划域定义语言(PDDL))很难指定的复杂顺序重新安排任务,证明了机器人在接触图上的高可行性和潜力。
translated by 谷歌翻译
教深入的强化学习(RL)代理在多任务环境中遵循说明是一个挑战性的问题。我们认为用户通过线性时间逻辑(LTL)公式定义了每个任务。但是,用户可能未知的复杂环境中的某些因果关系依赖性未知。因此,当人类用户指定说明时,机器人无法通过简单地按照给定的说明来解决任务。在这项工作中,我们提出了一个分层增强学习(HRL)框架,其中学习了符号过渡模型,以有效地制定高级计划,以指导代理有效地解决不同的任务。具体而言,符号过渡模型是通过归纳逻辑编程(ILP)学习的,以捕获状态过渡的逻辑规则。通过计划符号过渡模型的乘积和从LTL公式得出的自动机的乘积,代理可以解决因果关系依赖性,并将因果复杂问题分解为一系列简单的低级子任务。我们在离散和连续域中的三个环境上评估了提出的框架,显示了比以前的代表性方法的优势。
translated by 谷歌翻译
Solving real-world sequential manipulation tasks requires robots to have a repertoire of skills applicable to a wide range of circumstances. To acquire such skills using data-driven approaches, we need massive and diverse training data which is often labor-intensive and non-trivial to collect and curate. In this work, we introduce Active Task Randomization (ATR), an approach that learns visuomotor skills for sequential manipulation by automatically creating feasible and novel tasks in simulation. During training, our approach procedurally generates tasks using a graph-based task parameterization. To adaptively estimate the feasibility and novelty of sampled tasks, we develop a relational neural network that maps each task parameter into a compact embedding. We demonstrate that our approach can automatically create suitable tasks for efficiently training the skill policies to handle diverse scenarios with a variety of objects. We evaluate our method on simulated and real-world sequential manipulation tasks by composing the learned skills using a task planner. Compared to baseline methods, the skills learned using our approach consistently achieve better success rates.
translated by 谷歌翻译
当前独立于域的经典计划者需要问题域和实例作为输入的符号模型,从而导致知识采集瓶颈。同时,尽管深度学习在许多领域都取得了重大成功,但知识是在与符号系统(例如计划者)不兼容的亚符号表示中编码的。我们提出了Latplan,这是一种无监督的建筑,结合了深度学习和经典计划。只有一组未标记的图像对,显示了环境中允许的过渡子集(训练输入),Latplan学习了环境的完整命题PDDL动作模型。稍后,当给出代表初始状态和目标状态(计划输入)的一对图像时,Latplan在符号潜在空间中找到了目标状态的计划,并返回可视化的计划执行。我们使用6个计划域的基于图像的版本来评估LATPLAN:8个插头,15个式嘴,Blockworld,Sokoban和两个LightsOut的变体。
translated by 谷歌翻译