智能论文笔记

OstrichRL: A Musculoskeletal Ostrich Simulation to Study Bio-mechanical Locomotion

Vittorio La Barbera , Fabio Pardo , Yuval Tassa , Monica Daley , Christopher Richards , Petar Kormushev , John Hutchinson

分类：机器人 | 机器学习

2021-12-11

肌肉驱动控制是跨越不同领域的兴趣的研究课题，特别是生物力学，机器人和图形。这种类型的控制尤其具有挑战性，因为模型通常是过度的，并且动态被延迟和非线性。然而，这是一个非常良好的测试和调整的致动模型，该模型经历了数百万年的演变，并且涉及有趣的性质利用肌肉肌腱单元的被动力和有效的能量存储和释放。为了促进肌肉致动模拟研究，我们基于Mujoco模拟器释放鸵鸟的3D肌肉骨骼模拟。 Ostriches是地球上最快的搭配之一，因此是研究肌肉驱动的双模运动的优秀模型。该模型基于CT扫描和解剖，用于收集诸如插入位点，长度和钢圈角度的实际肌肉数据。除此之外，我们还提供一组加强学习任务，包括参考运动跟踪和颈部的达到任务。参考运动数据基于我们预处理和适应我们模型的各种行为的运动捕获剪辑。本文介绍了如何使用任务构建和迭代地改进模型。通过将它们与从机车鸟类的实验收集的电拍摄数据进行比较来评估肌肉致动模式的准确性。我们认为，这项工作可以是生物力学，强化学习，图形和机器人社区之间的有用桥梁，通过提供快速且易于使用的模拟。

translated by 谷歌翻译

Learning Control Policies for Fall prevention and safety in bipedal locomotion

Visak Kumar

分类：机器人 | 人工智能

2022-01-04

从意外的外部扰动中恢复的能力是双模型运动的基本机动技能。有效的答复包括不仅可以恢复平衡并保持稳定性的能力，而且在平衡恢复物质不可行时，也可以保证安全的方式。对于与双式运动有关的机器人，例如人形机器人和辅助机器人设备，可帮助人类行走，设计能够提供这种稳定性和安全性的控制器可以防止机器人损坏或防止伤害相关的医疗费用。这是一个具有挑战性的任务，因为它涉及用触点产生高维，非线性和致动系统的高动态运动。尽管使用基于模型和优化方法的前进方面，但诸如广泛领域知识的要求，诸如较大的计算时间和有限的动态变化的鲁棒性仍然会使这个打开问题。在本文中，为了解决这些问题，我们开发基于学习的算法，能够为两种不同的机器人合成推送恢复控制政策：人形机器人和有助于双模型运动的辅助机器人设备。我们的工作可以分为两个密切相关的指示：1）学习人形机器人的安全下降和预防策略，2）使用机器人辅助装置学习人类的预防策略。为实现这一目标，我们介绍了一套深度加强学习（DRL）算法，以学习使用这些机器人时提高安全性的控制策略。

translated by 谷歌翻译

Neural Approaches to Co-Optimization in Robotics

Charles Schaff

分类：机器人

2022-09-01

机器人和与世界相互作用或互动的机器人和智能系统越来越多地被用来自动化各种任务。这些系统完成这些任务的能力取决于构成机器人物理及其传感器物体的机械和电气部件，例如，感知算法感知环境，并计划和控制算法以生产和控制算法来生产和控制算法有意义的行动。因此，通常有必要在设计具体系统时考虑这些组件之间的相互作用。本文探讨了以端到端方式对机器人系统进行任务驱动的合作的工作，同时使用推理或控制算法直接优化了系统的物理组件以进行任务性能。我们首先考虑直接优化基于信标的本地化系统以达到本地化准确性的问题。设计这样的系统涉及将信标放置在整个环境中，并通过传感器读数推断位置。在我们的工作中，我们开发了一种深度学习方法，以直接优化信标的放置和位置推断以达到本地化精度。然后，我们将注意力转移到了由任务驱动的机器人及其控制器优化的相关问题上。在我们的工作中，我们首先提出基于多任务增强学习的数据有效算法。我们的方法通过利用能够在物理设计的空间上概括设计条件的控制器，有效地直接优化了物理设计和控制参数，以直接优化任务性能。然后，我们对此进行跟进，以允许对离散形态参数（例如四肢的数字和配置）进行优化。最后，我们通过探索优化的软机器人的制造和部署来得出结论。

translated by 谷歌翻译

HTML版本

Recent Approaches for Perceptive Legged Locomotion

Hersh Sanghvi

分类：机器人

2022-09-21

随着腿部机器人和嵌入式计算都变得越来越有能力，研究人员已经开始专注于这些机器人的现场部署。在非结构化环境中的强大自治需要对机器人周围的世界感知，以避免危害。但是，由于处理机车动力学所需的复杂规划人员和控制器，因此在网上合并在线的同时在线保持敏捷运动对腿部机器人更具挑战性。该报告将比较三种最新的感知运动方法，并讨论可以使用视觉来实现腿部自主权的不同方式。

translated by 谷歌翻译

Learning Dexterous In-Hand Manipulation

OpenAI , Marcin Andrychowicz , Bowen Baker , Maciek Chociej , Rafal Jozefowicz , Bob McGrew , Jakub Pachocki , Arthur Petron , Matthias Plappert , Glenn Powell

分类：

2018-08-01

Figure 1: A five-fingered humanoid hand trained with reinforcement learning manipulating a block from an initial configuration to a goal configuration using vision for sensing.

translated by 谷歌翻译

Learning agile and dynamic motor skills for legged robots

Jemin Hwangbo , Joonho Lee , Alexey Dosovitskiy , Dario Bellicoso , Vassilios Tsounis , Vladlen Koltun , Marco Hutter

分类：

2019-01-24

Legged robots pose one of the greatest challenges in robotics. Dynamic and agile maneuvers of animals cannot be imitated by existing methods that are crafted by humans. A compelling alternative is reinforcement learning, which requires minimal craftsmanship and promotes the natural evolution of a control policy. However, so far, reinforcement learning research for legged robots is mainly limited to simulation, and only few and comparably simple examples have been deployed on real systems. The primary reason is that training with real robots, particularly with dynamically balancing systems, is complicated and expensive. In the present work, we report a new method for training a neural network policy in simulation and transferring it to a state-of-the-art legged system, thereby we leverage fast, automated, and cost-effective data generation schemes. The approach is applied to the ANYmal robot, a sophisticated medium-dog-sized quadrupedal system. Using policies trained in simulation, the quadrupedal machine achieves locomotion skills that go beyond what had been achieved with prior methods: ANYmal is capable of precisely and energy-efficiently following high-level body velocity commands, running faster than ever before, and recovering from falling even in complex configurations.

translated by 谷歌翻译

DeepMimic: Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills

Xue Bin Peng , Pieter Abbeel , Sergey Levine , Michiel van de Panne

分类：

2018-04-08

translated by 谷歌翻译

Learning with Muscles: Benefits for Data-Efficiency and Robustness in Anthropomorphic Tasks

Isabell Wochner , Pierre Schumacher , Georg Martius , Dieter Büchler , Syn Schmitt , Daniel F. B. Haeufle

分类：机器人 | 机器学习

2022-07-08

人类能够在鲁棒性，多功能性和学习各种运动中的新任务方面超越机器人。我们假设高度非线性的肌肉动力学在提供固有的稳定性方面起着重要作用，这有利于学习。虽然在模拟和机器人技术中将现代学习技术应用于肌肉动态系统方面取得了最新进展，但到目前为止，尚未进行详细的分析以在这种情况下显示肌肉的好处。我们的研究通过研究核心机器人技术的挑战并比较不同执行器形态的性能，从数据效率，超参数灵敏度和鲁棒性进行比较。

translated by 谷歌翻译

QuestSim: Human Motion Tracking from Sparse Sensors with Simulated Avatars

Alexander Winkler , Jungdam Won , Yuting Ye

分类：计算机视觉

2022-09-20

人体运动的实时跟踪对于AR/VR中的互动和沉浸式体验至关重要。但是，有关人体的传感器数据非常有限，可以从独立的可穿戴设备（例如HMD（头部安装设备）或AR眼镜）获得。在这项工作中，我们提出了一个强化学习框架，该框架从HMD和两个控制器中获取稀疏信号，并模拟合理且身体上有效的全身运动。在训练过程中，使用高质量的全身运动作为密集的监督，一个简单的策略网络可以学会为角色，步行和慢跑的角色输出适当的扭矩，同时紧随输入信号。我们的结果表明，即使输入仅是HMD的6D变换，也没有对下半身进行任何观察到的地面真理的惊人相似的腿部运动。我们还表明，单一政策可以对各种运动风格，不同的身体尺寸和新颖的环境都有坚固的态度。

translated by 谷歌翻译

OPT-Mimic: Imitation of Optimized Trajectories for Dynamic Quadruped Behaviors

Yuni Fuchioka , Zhaoming Xie , Michiel van de Panne

分类：机器人

2022-10-03

Reinforcement Learning (RL) has seen many recent successes for quadruped robot control. The imitation of reference motions provides a simple and powerful prior for guiding solutions towards desired solutions without the need for meticulous reward design. While much work uses motion capture data or hand-crafted trajectories as the reference motion, relatively little work has explored the use of reference motions coming from model-based trajectory optimization. In this work, we investigate several design considerations that arise with such a framework, as demonstrated through four dynamic behaviours: trot, front hop, 180 backflip, and biped stepping. These are trained in simulation and transferred to a physical Solo 8 quadruped robot without further adaptation. In particular, we explore the space of feed-forward designs afforded by the trajectory optimizer to understand its impact on RL learning efficiency and sim-to-real transfer. These findings contribute to the long standing goal of producing robot controllers that combine the interpretability and precision of model-based optimization with the robustness that model-free RL-based controllers offer.

translated by 谷歌翻译

Learning Bipedal Walking On Planned Footsteps For Humanoid Robots

Rohan Pratap Singh , Mehdi Benallegue , Mitsuharu Morisawa , Rafael Cisneros , Fumio Kanehiro

分类：机器人 | 人工智能 | 机器学习

2022-07-26

基于腿部机器人的基于深的加固学习（RL）控制器表现出令人印象深刻的鲁棒性，可在不同的环境中为多个机器人平台行走。为了在现实世界中启用RL策略为类人类机器人应用，至关重要的是，建立一个可以在2D和3D地形上实现任何方向行走的系统，并由用户命令控制。在本文中，我们通过学习遵循给定步骤序列的政策来解决这个问题。该政策在一组程序生成的步骤序列（也称为脚步计划）的帮助下进行培训。我们表明，仅将即将到来的2个步骤喂入政策就足以实现全向步行，安装到位，站立和攀登楼梯。我们的方法采用课程学习对地形的复杂性，并规避了参考运动或预训练的权重的需求。我们证明了我们提出的方法在Mujoco仿真环境中学习2个新机器人平台的RL策略-HRP5P和JVRC -1-。可以在线获得培训和评估的代码。

translated by 谷歌翻译

Learning to Use Chopsticks in Diverse Styles

Zeshi Yang , KangKang Yin , Libin Liu

分类：机器人

2022-05-28

学习灵巧的操纵技巧是计算机图形和机器人技术的长期挑战，尤其是当任务涉及手，工具和物体之间的复杂而微妙的互动时。在本文中，我们专注于基于筷子的对象搬迁任务，这些任务很常见却又要求。成功的筷子技巧的关键是稳定地抓住棍棒，这也支持精致的演习。我们会自动发现贝叶斯优化（BO）和深钢筋学习（DRL）的身体有效的筷子姿势，它适用于多种握把的样式和手工形态，而无需示例数据。作为输入，我们要移动发现的抓紧姿势和所需的对象，我们构建了基于物理的手部控制器，以在两个阶段完成重定位任务。首先，运动轨迹是为筷子合成的，并处于运动计划阶段。我们运动策划者的关键组件包括一个握把模型，以选择用于抓住对象的合适筷子配置，以及一个轨迹优化模块，以生成无碰撞的筷子轨迹。然后，我们再次通过DRL训练基于物理的手部控制器，以跟踪运动计划者产生的所需运动轨迹。我们通过重新定位各种形状和尺寸的对象，以多种诱人的样式和多种手工形态的位置来展示框架的功能。与试图学习基于筷子的技能的香草系统相比，我们的系统实现了更快的学习速度和更好的控制鲁棒性，而无需抓紧姿势优化模块和/或没有运动学运动计划者。

translated by 谷歌翻译

Neuromechanical model-based adaptive control of bi-lateral ankle exoskeletons: biological joint torque and electromyogram reduction across walking conditions

Guillaume Durandau , Wolfgang Rampeltshammer , Herman van der Kooij , Massimo Sartori

分类：机器人

2021-08-02

为了在医疗和工业环境中广泛采用可穿戴机器人外骨骼，至关重要的是，它们可以适应性地支持大量运动。我们提出了一种新的人机界面，以同时在一系列“看不见的”步行条件和未用于建立控制界面的“看不见”步行条件和过渡期间同时驱动双侧踝部外骨骼。提出的方法使用人特异性的神经力学模型从测量的肌电图（EMG）和关节角度实时估算生物踝关节扭矩。基于干扰观察者的低级控制器将生物扭矩估计转换为外骨骼命令。我们称此“基于神经力学模型的控制”（NMBC）。 NMBC使六个人能够自愿控制六个步行条件下的双边踝部外骨骼，包括所有中间过渡，即两个步行速度，每个步行速度在三个地面高程中进行，不需要预先定义的扭矩轮廓，也不需要先验选择的神经肌肉肌肉反射规则，或国家机器在文献中很常见。在涉及月球漫步的灵活的运动任务上进行了一个单一的主题案例研究。 NMBC始终启用能够减少生物踝扭矩，以及与非辅助条件相比，在步行条件（24％扭矩； 14％EMG）之间以及步行条件（24％扭矩； 14％EMG）之间的八个踝部肌肉EMG。新型步行条件下的扭矩和EMG减少表明，外骨骼在操作员的神经肌肉系统控制的外观上进行了共生。这为系统地采用可穿戴机器人作为现场医疗和职业环境的一部分开辟了新的途径。

translated by 谷歌翻译

Autonomous Aerial Delivery Vehicles, a Survey of Techniques on how Aerial Package Delivery is Achieved

Jack Saunders , Sajad Saeedi , Wenbin Li

分类：机器人

2021-10-06

在过去的十年中，自动驾驶航空运输车辆引起了重大兴趣。这是通过空中操纵器和新颖的握手的技术进步来实现这一目标的。此外，改进的控制方案和车辆动力学能够更好地对有效载荷进行建模和改进的感知算法，以检测无人机（UAV）环境中的关键特征。在这项调查中，对自动空中递送车辆的技术进步和开放研究问题进行了系统的审查。首先，详细讨论了各种类型的操纵器和握手，以及动态建模和控制方法。然后，讨论了降落在静态和动态平台上的。随后，诸如天气状况，州估计和避免碰撞之类的风险以确保安全过境。最后，调查了交付的UAV路由，该路由将主题分为两个领域：无人机操作和无人机合作操作。

translated by 谷歌翻译

Learning to Get Up

Tianxin Tao , Matthew Wilson , Ruiyu Gou , Michiel van de Panne

分类：机器学习 | 机器人

2022-04-30

从任意堕落状态中起床是一种基本的人类技能。现有的学习这种技能的方法通常会产生高度动态和不稳定的起床动作，这不像人类的起床策略，或者基于跟踪记录的人类起床运动。在本文中，我们提出了一种使用强化学习的分阶段方法，而无需求助于运动捕获数据。该方法首先利用了强大的字符模型，从而有助于发现解决方案模式。然后，第二阶段学会了调整控制策略，以逐步与角色的较弱版本一起使用。最后，第三阶段学习控制政策，这些政策可以以较慢的速度重现较弱的起床动作。我们表明，在多个运行中，该方法可以发现各种各样的起床策略，并以各种速度执行它们。结果通常会产生采用最终站立策略的策略，这些策略是从所有初始状态中看到的恢复动作所共有的。但是，我们还发现了对俯卧和仰卧初始堕落状态的不同策略的政策。学识渊博的起床控制策略通常具有明显的静态稳定性，即，在起床运动过程中，它们可以在各个点停下来。我们进一步测试了新的限制场景的方法，例如在演员表中有一条腿和手臂。

translated by 谷歌翻译

Estimating 3D Motion and Forces of Human-Object Interactions from Internet Videos

Zongmian Li , Jiri Sedlar , Justin Carpentier , Ivan Laptev , Nicolas Mansard , Josef Sivic

分类：计算机视觉

2021-11-02

在本文中，我们介绍一种方法来自动重建与来自单个RGB视频相互作用的人的3D运动。我们的方法估计人的3D与物体姿势，接触位置和施加在人体上的接触力的姿势。这项工作的主要贡献是三倍。首先，我们介绍一种通过建模触点和相互作用的动态来联合估计人与人的运动和致动力的方法。这是一个大规模的轨迹优化问题。其次，我们开发一种方法来从输入视频自动识别，从输入视频中识别人和物体或地面之间的2D位置和时序，从而显着简化了优化的复杂性。第三，我们在最近的视频+ Mocap数据集上验证了捕获典型的Parkour行动的方法，并在互联网视频的新数据集上展示其表现，显示人们在不受约束的环境中操纵各种工具。

translated by 谷歌翻译

A GAN-Like Approach for Physics-Based Imitation Learning and Interactive Character Control

Pei Xu , Ioannis Karamouzas

分类：机器学习

2021-05-21

我们为物理模拟字符进行了简单而直观的互动控制方法。我们的工作在生成的对抗网络（GAN）和加强学习时构建，并介绍了一个模仿学习框架，其中分类器的集合和仿制策略训练在给定预处理的参考剪辑中训练。分类器受过培训，以区分从模仿政策产生的运动中的参考运动，而策略是为了欺骗歧视者而获得奖励。使用我们的GaN的方法，可以单独培训多个电机控制策略以模仿不同的行为。在运行时，我们的系统可以响应用户提供的外部控制信号，并在不同策略之间交互式切换。与现有方法相比，我们所提出的方法具有以下有吸引力的特性：1）在不手动设计和微调奖励功能的情况下实现最先进的模仿性能; 2）直接控制字符，而无需明确地或隐含地通过相位状态跟踪任何目标参考姿势; 3）支持交互式策略切换，而无需任何运动生成或运动匹配机制。我们突出了我们在一系列模仿和互动控制任务中的方法的适用性，同时还证明了其抵御外部扰动以及恢复平衡的能力。总的来说，我们的方法产生高保真运动，运行时的运行时间低，并且可以轻松地集成到交互式应用程序和游戏中。

translated by 谷歌翻译

Recovery of Behaviors Encoded via Bilateral Constraints

George Council , Shai Revzen

分类：机器人

2020-05-01

如果机器人曾经实现与动物所展示的机器人相当的自动运动，则它们必须获得在损害，故障或环境条件下快速恢复运动行为的能力，从而损害了其有效移动的能力。我们提出了一种方法，该方法使我们的机器人和模拟机器人能够在几十次尝试中恢复自由运动行为的高度。我们的方法采用行为规范，以等级的差异约束来表达所需的行为。我们展示了如何通过编码模板来考虑这些约束，从而产生了将先前优化的行为推广到新情况下以快速学习的形式概括的秘诀。我们进一步说明，在数据驱动的上下文中，足够的限制通常很容易确定。作为例证，我们证明了我们在物理7 DOF六型六杆元机器人上的恢复方法，以及对6 DOF 2D运动机制的模拟。在这两种情况下，我们恢复了与先前优化的运动在功能上无法区分的行为。

translated by 谷歌翻译

Advanced Skills by Learning Locomotion and Local Navigation End-to-End

Nikita Rudin , David Hoeller , Marko Bjelonic , Marco Hutter

分类：机器人 | 机器学习

2022-09-26

通过腿部机器人在具有挑战性的环境上进行本地导航的通用方法需要路径计划，路径跟随和运动，这通常需要机动控制策略，以准确跟踪指挥速度。但是，通过将导航问题分解为这些子任务，我们限制了机器人的功能，因为各个任务不考虑完整的解决方案空间。在这项工作中，我们建议通过深入强化学习来训练端到端政策来解决完整的问题。机器人不必在提供的时间内到达目标位置，而不是不断跟踪预算的路径。该任务的成功仅在情节结束时进行评估，这意味着该策略不需要尽快到达目标。可以免费选择其路径和运动步态。以这种方式培训政策可以打开更多可能的解决方案，这使机器人能够学习更多复杂的行为。我们比较我们的速度跟踪方法，并表明任务奖励的时间依赖性对于成功学习这些新行为至关重要。最后，我们证明了在真正的四足动物机器人上成功部署政策。机器人能够跨越具有挑战性的地形，这是以前无法实现的，同时使用更节能的步态并达到更高的成功率。

translated by 谷歌翻译

Emergence of human oculomotor behavior from optimal control of a cable-driven biomimetic robotic eye

Reza Javanmard Alitappeh , Akhil John , Bernardo Dias , A. John van Opstal , Alexandre Bernardino

分类：机器人

2022-03-01

在人类机器人的相互作用中，眼球运动在非语言交流中起着重要作用。但是，控制机器人眼的动作表现出与人眼动物系统相似的性能仍然是一个重大挑战。在本文中，我们研究了如何使用电缆驱动的驱动系统来控制人眼的现实模型，该系统模仿了六个眼外肌肉的自由度。仿生设计引入了解决新的挑战，最值得注意的是，需要控制每种肌肉的支撑，以防止运动过程中的紧张感损失，这将导致电缆松弛和缺乏控制。我们构建了一个机器人原型，并开发了一个非线性模拟器和两个控制器。在第一种方法中，我们使用局部衍生技术线性化了非线性模型，并设计了线性 - 季度最佳控制器，以优化计算准确性，能量消耗和运动持续时间的成本函数。第二种方法使用复发性神经网络，该神经网络从系统的样本轨迹中学习非线性系统动力学，以及一个非线性轨迹优化求解器，可最大程度地减少相似的成本函数。我们专注于具有完全不受限制的运动学的快速saccadic眼球运动，以及六根电缆的控制信号的生成，这些电缆同时满足了几个动态优化标准。该模型忠实地模仿了人类扫视观察到的三维旋转运动学和动力学。我们的实验结果表明，尽管两种方法都产生了相似的结果，但非线性方法对于未来改进该模型的方法更加灵活，该模型的计算是线性化模型的位置依赖性偏向和局部衍生物的计算变得特别乏味。

translated by 谷歌翻译