建立机器人假体的核心挑战是创建基于传感器的系统,能够从下肢读取生理信号,并指示机器人手执行各种任务。现有系统通常通过采用肌电图(EMG)或超声(US)技术来分析肌肉状态,进行诸如指向或抓握之类的离散手势。虽然过去通过检测突出的手势来估算手势手势,但我们对检测或推理感兴趣,在随着时间的流逝而发展的精细运动的背景下进行。示例包括执行精细且灵巧的任务(例如键盘打字或钢琴弹奏)时发生的动作。我们将这项任务视为朝着臂截肢者中机器人假体提高采用率的重要一步,因为它有可能显着提高执行日常任务的功能。为此,我们提出了一个端到端的机器人系统,可以成功推断出精细的手指运动。这是通过将手作为机器人操纵器建模并将其用作中间表示来实现的,以从美国图像序列中编码肌肉的动力学。我们通过收集一组主题的数据来评估我们的方法,并演示如何使用它来重播播放或键入文字。据我们所知,这是第一个研究端到端系统中这些下游任务的第一项研究。
translated by 谷歌翻译
With the advancement in computing and robotics, it is necessary to develop fluent and intuitive methods for interacting with digital systems, augmented/virtual reality (AR/VR) interfaces, and physical robotic systems. Hand motion recognition is widely used to enable these interactions. Hand configuration classification and MCP joint angle detection is important for a comprehensive reconstruction of hand motion. sEMG and other technologies have been used for the detection of hand motions. Forearm ultrasound images provide a musculoskeletal visualization that can be used to understand hand motion. Recent work has shown that these ultrasound images can be classified using machine learning to estimate discrete hand configurations. Estimating both hand configuration and MCP joint angles based on forearm ultrasound has not been addressed in the literature. In this paper, we propose a CNN based deep learning pipeline for predicting the MCP joint angles. The results for the hand configuration classification were compared by using different machine learning algorithms. SVC with different kernels, MLP, and the proposed CNN have been used to classify the ultrasound images into 11 hand configurations based on activities of daily living. Forearm ultrasound images were acquired from 6 subjects instructed to move their hands according to predefined hand configurations. Motion capture data was acquired to get the finger angles corresponding to the hand movements at different speeds. Average classification accuracy of 82.7% for the proposed CNN and over 80% for SVC for different kernels was observed on a subset of the dataset. An average RMSE of 7.35 degrees was obtained between the predicted and the true MCP joint angles. A low latency (6.25 - 9.1 Hz) pipeline has been proposed for estimating both MCP joint angles and hand configuration aimed at real-time control of human-machine interfaces.
translated by 谷歌翻译
目的:对于下臂截肢者,机器人假肢承诺将重新获得日常生活活动的能力。基于生理信号(例如肌电图(EMG))的当前控制方法容易由于运动伪影,肌肉疲劳等导致不良的推理结果。视觉传感器是有关环境状态的主要信息来源,可以在推断可行和预期的手势中发挥至关重要的作用。但是,视觉证据也容易受到其自身的伪像,最常由于对象阻塞,照明变化等。使用生理和视觉传感器测量的多模式证据融合是一种自然方法,这是由于这些模态的互补优势。方法:在本文中,我们提出了一个贝叶斯证据融合框架,用于使用眼部视频,眼睛凝视和来自神经网络模型处理前臂的EMG的掌握意图推理。当手接近对象以掌握对象时,我们将个人和融合性能分析为时间的函数。为此,我们还开发了新颖的数据处理和增强技术来训练神经网络组件。结果:我们的结果表明,相对于EMG和视觉证据,平均而言,融合会提高即将到来的GRASP类型分类准确性,而在触及阶段则提高了13.66%和14.8%的融合,从而单独地和视觉证据,总体融合精度为95.3%。结论:我们的实验数据分析表明,EMG和视觉证据表明互补的强度,因此,多模式证据的融合可以在任何给定时间胜过每个单独的证据方式。
translated by 谷歌翻译
人类的物体感知能力令人印象深刻,当试图开发具有类似机器人的解决方案时,这变得更加明显。从人类如何将视觉和触觉用于对象感知和相关任务的灵感中,本文总结了机器人应用的多模式对象感知的当前状态。它涵盖了生物学灵感,传感器技术,数据集以及用于对象识别和掌握的感觉数据处理的各个方面。首先,概述了多模式对象感知的生物学基础。然后讨论了传感技术和数据收集策略。接下来,介绍了主要计算方面的介绍,突出显示了每个主要应用领域的一些代表性文章,包括对象识别,传输学习以及对象操纵和掌握。最后,在每个领域的当前进步中,本文概述了有希望的新研究指示。
translated by 谷歌翻译
肌电图(EMG)数据已被广泛采用作为指导人类机器人协作的直观界面。实时检测人类掌握意图的主要挑战是从手动运动中识别动态EMG。先前的研究主要实施了稳态EMG分类,并在动态情况下具有少量的掌握模式,这些模式不足以产生有关实践中肌肉活动变化的差异化控制。为了更好地检测动态运动,可以将更多的EMG变异性集成到模型中。但是,只有有限的研究集中于这种动态抓紧运动的检测,而对非静态EMG分类的大多数现有评估要么需要监督运动状态的地面真相,要么仅包含有限的运动学变化。在这项研究中,我们提出了一个将动态EMG信号分类为手势的框架,并使用一种无​​监督的方法来检查不同运动阶段的影响,以细分和标记动作转变。我们从大型手势词汇中收集和利用了具有多种动态动作的大型手势词汇的数据,以基于掌握动作的常见序列编码从一个抓握意图到另一个掌握的过渡。随后根据动态EMG信号构建了用于识别手势标签的分类器,不需要对运动运动的监督注释。最后,我们使用来自不同运动阶段的EMG数据评估了多种培训策略的性能,并探讨了每个阶段揭示的信息。所有实验均以实时样式进行评估,并随着时间的推移的性能过渡。
translated by 谷歌翻译
人类行动识别是计算机视觉中的重要应用领域。它的主要目的是准确地描述人类的行为及其相互作用,从传感器获得的先前看不见的数据序列中。识别,理解和预测复杂人类行动的能力能够构建许多重要的应用,例如智能监视系统,人力计算机界面,医疗保健,安全和军事应用。近年来,计算机视觉社区特别关注深度学习。本文使用深度学习技术的视频分析概述了当前的动作识别最新识别。我们提出了识别人类行为的最重要的深度学习模型,并分析它们,以提供用于解决人类行动识别问题的深度学习算法的当前进展,以突出其优势和缺点。基于文献中报道的识别精度的定量分析,我们的研究确定了动作识别中最新的深层体系结构,然后为该领域的未来工作提供当前的趋势和开放问题。
translated by 谷歌翻译
我们的目标是从规定的行动类别中解决从规定的行动类别创造多元化和自然人动作视频的有趣但具有挑战性的问题。关键问题在于能够在视觉外观中综合多种不同的运动序列。在本文中通过两步过程实现,该两步处理维持内部3D姿势和形状表示,Action2Motion和Motion2Video。 Action2Motion随机生成规定的动作类别的合理的3D姿势序列,该类别由Motion2Video进行处理和呈现,以形成2D视频。具体而言,Lie代数理论从事人类运动学的物理法之后代表自然人动作;开发了一种促进输出运动的分集的时间变化自动编码器(VAE)。此外,给定衣服人物的额外输入图像,提出了整个管道以提取他/她的3D详细形状,并在视频中呈现来自不同视图的合理运动。这是通过改进从单个2D图像中提取3D人类形状和纹理,索引,动画和渲染的现有方法来实现这一点,以形成人类运动的2D视频。它还需要3D人类运动数据集的策策和成果进行培训目的。彻底的经验实验,包括消融研究,定性和定量评估表现出我们的方法的适用性,并展示了解决相关任务的竞争力,其中我们的方法的组成部分与最先进的方式比较。
translated by 谷歌翻译
我们考虑对物体抓住的任务,可以用多种抓握类型的假肢手抓住。在这种情况下,传达预期的抓取类型通常需要高的用户认知负载,可以减少采用共享自主框架。在其中,所谓的眼睛内部系统会根据手腕上的相机的视觉输入自动控制掌握前的手工整形。在本文中,我们提出了一种基于目光的学习方法,用于从RGB序列中进行手部形状分类。与以前的工作不同,我们设计了该系统,以支持以不同的掌握类型掌握每个被认为的对象部分的可能性。为了克服缺乏此类数据并减少对训练系统繁琐的数据收集会话的需求,我们设计了一条呈现手动轨迹合成视觉序列的管道。我们开发了一种传感器的设置,以获取真正的人类握把序列以进行基准测试,并表明,与实际数据相比,使用合成数据集训练的实用案例相比,与对真实数据培训的模型相比,使用合成数据集训练的模型获得了更好的概括性能。我们最终将模型整合到Hannes假肢手中,并显示其实际有效性。我们使代码和数据集公开可用,以复制提出的结果。
translated by 谷歌翻译
我们研究了实时的协作机器人(Cobot)处理,Cobot在人类命令下操纵工件。当人类直接处理工件时,这是有用的。但是,在可能的操作中难以使COBOT易于命令和灵活。在这项工作中,我们提出了一个实时协作机器人处理(RTCOHand)框架,其允许通过用户定制的动态手势控制COBOT。由于用户,人类运动不确定性和嘈杂的人类投入的变化,这很难。我们将任务塑造为概率的生成过程,称为条件协作处理过程(CCHP),并从人类的合作中学习。我们彻底评估了CCHP的适应性和稳健性,并将我们的方法应用于Kinova Gen3机器人手臂的实时Cobot处理任务。我们实现了与经验丰富和新用户的无缝人员合作。与古典控制器相比,RTCEHAND允许更复杂的操作和更低的用户认知负担。它还消除了对试验和错误的需求,在安全关键任务中呈现。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
视觉的触觉传感器由于经济实惠的高分辨率摄像机和成功的计算机视觉技术而被出现为机器人触摸的有希望的方法。但是,它们的物理设计和他们提供的信息尚不符合真实应用的要求。我们提供了一种名为Insight的强大,柔软,低成本,视觉拇指大小的3D触觉传感器:它不断在其整个圆锥形感测表面上提供定向力分布图。围绕内部单眼相机构造,传感器仅在刚性框架上仅成型一层弹性体,以保证灵敏度,鲁棒性和软接触。此外,Insight是第一个使用准直器将光度立体声和结构光混合的系统来检测其易于更换柔性外壳的3D变形。通过将图像映射到3D接触力的空间分布(正常和剪切)的深神经网络推断力信息。洞察力在0.4毫米的总空间分辨率,力量幅度精度约为0.03 n,并且对于具有不同接触面积的多个不同触点,在0.03-2 n的范围内的5度大约5度的力方向精度。呈现的硬件和软件设计概念可以转移到各种机器人部件。
translated by 谷歌翻译
由于价格合理的可穿戴摄像头和大型注释数据集的可用性,在过去几年中,Egintric Vision(又名第一人称视觉-FPV)的应用程序在过去几年中蓬勃发展。可穿戴摄像机的位置(通常安装在头部上)允许准确记录摄像头佩戴者在其前面的摄像头,尤其是手和操纵物体。这种内在的优势可以从多个角度研究手:将手及其部分定位在图像中;了解双手涉及哪些行动和活动;并开发依靠手势的人类计算机界面。在这项调查中,我们回顾了使用以自我为中心的愿景专注于手的文献,将现有方法分类为:本地化(其中的手或部分在哪里?);解释(手在做什么?);和应用程序(例如,使用以上为中心的手提示解决特定问题的系统)。此外,还提供了带有手基注释的最突出的数据集的列表。
translated by 谷歌翻译
我们提出了一种新的四管齐下的方法,在文献中首次建立消防员的情境意识。我们构建了一系列深度学习框架,彼此之叠,以提高消防员在紧急首次响应设置中进行的救援任务的安全性,效率和成功完成。首先,我们使用深度卷积神经网络(CNN)系统,以实时地分类和识别来自热图像的感兴趣对象。接下来,我们将此CNN框架扩展了对象检测,跟踪,分割与掩码RCNN框架,以及具有多模级自然语言处理(NLP)框架的场景描述。第三,我们建立了一个深入的Q学习的代理,免受压力引起的迷失方向和焦虑,能够根据现场消防环境中观察和存储的事实来制定明确的导航决策。最后,我们使用了一种低计算无监督的学习技术,称为张量分解,在实时对异常检测进行有意义的特征提取。通过这些临时深度学习结构,我们建立了人工智能系统的骨干,用于消防员的情境意识。要将设计的系统带入消防员的使用,我们设计了一种物理结构,其中处理后的结果被用作创建增强现实的投入,这是一个能够建议他们所在地的消防员和周围的关键特征,这对救援操作至关重要在手头,以及路径规划功能,充当虚拟指南,以帮助迷彩的第一个响应者恢复安全。当组合时,这四种方法呈现了一种新颖的信息理解,转移和综合方法,这可能会大大提高消防员响应和功效,并降低寿命损失。
translated by 谷歌翻译
我们构建了一个系统,可以通过自己的手展示动作,使任何人都可以控制机器人手和手臂。机器人通过单个RGB摄像机观察人类操作员,并实时模仿其动作。人的手和机器人的手在形状,大小和关节结构上有所不同,并且从单个未校准的相机进行这种翻译是一个高度不受约束的问题。此外,重新定位的轨迹必须有效地在物理机器人上执行任务,这要求它们在时间上平稳且没有自我收集。我们的关键见解是,虽然配对的人类机器人对应数据的收集价格昂贵,但互联网包含大量丰富而多样的人类手视频的语料库。我们利用这些数据来训练一个理解人手并将人类视频流重新定位的系统训练到机器人手臂轨迹中,该轨迹是平稳,迅速,安全和语义上与指导演示的相似的系统。我们证明,它使以前未经训练的人能够在各种灵巧的操纵任务上进行机器人的态度。我们的低成本,无手套,无标记的远程遥控系统使机器人教学更容易访问,我们希望它可以帮助机器人学习在现实世界中自主行动。视频https://robotic-telekinesis.github.io/
translated by 谷歌翻译
We introduce a new dataset, Human3.6M, of 3.6 Million accurate 3D Human poses, acquired by recording the performance of 5 female and 6 male subjects, under 4 different viewpoints, for training realistic human sensing systems and for evaluating the next generation of human pose estimation models and algorithms. Besides increasing the size of the datasets in the current state of the art by several orders of magnitude, we also aim to complement such datasets with a diverse set of motions and poses encountered as part of typical human activities (taking photos, talking on the phone, posing, greeting, eating, etc.), with additional synchronized image, human motion capture and time of flight (depth) data, and with accurate 3D body scans of all the subject actors involved. We also provide controlled mixed reality evaluation scenarios where 3D human models are animated using motion capture and inserted using correct 3D geometry, in complex real environments, viewed with moving cameras, and under occlusion. Finally, we provide a set of large scale statistical models and detailed evaluation baselines for the dataset illustrating its diversity and the scope for improvement by future work in the research community. Our experiments show that our best large scale model can leverage our full training set to obtain a 20% improvement in performance compared to a training set of the scale of the largest existing public dataset for this problem. Yet the potential for improvement by leveraging higher capacity, more complex models with our large dataset, is substantially vaster and should stimulate future research. The dataset together with code for the associated large-scale learning models, features, visualization tools, as well as the evaluation server, is available online at http://vision.imar.ro/human3.6m.
translated by 谷歌翻译
用机器人手操纵物体是一项复杂的任务。不仅需要协调手指,而且机器人最终效应器的姿势也需要协调。使用人类的运动演示是指导机器人行为的直观和数据效率的方式。我们提出了一个具有自动实施例映射的模块化框架,以将记录的人体运动转移到机器人系统中。在这项工作中,我们使用运动捕获来记录人类运动。我们在八项具有挑战性的任务上评估了我们的方法,其中机器人手需要掌握和操纵可变形或小且脆弱的物体。我们测试了模拟和实际机器人中的轨迹子集,并且整体成功率是一致的。
translated by 谷歌翻译
用全球性结构(例如编织)合成人体运动是一个具有挑战性的任务。现有方法倾向于集中在局部光滑的姿势过渡并忽视全球背景或运动的主题。在这项工作中,我们提出了一种音乐驱动的运动综合框架,其产生与输入节拍同步的人类运动的长期序列,并共同形成尊重特定舞蹈类型的全局结构。此外,我们的框架可以实现由音乐内容控制的不同运动,而不仅仅是由节拍。我们的音乐驱动舞蹈综合框架是一个分层系统,包括三个层次:姿势,图案和编排。姿势水平由LSTM组件组成,该组件产生时间相干的姿势。图案级别引导一组连续姿势,形成一个使用新颖运动感知损失所属的特定分布的运动。并且舞蹈级别选择所执行的运动的顺序,并驱动系统遵循舞蹈类型的全球结构。我们的结果展示了我们的音乐驱动框架的有效性,以在各种舞蹈类型上产生自然和一致的运动,控制合成运动的内容,并尊重舞蹈的整体结构。
translated by 谷歌翻译
机器人超声(US)成像旨在克服美国自由企业考试的一些局限性,例如难以保证操作员可重复性。然而,由于患者之间的解剖学和生理变化以及解剖下结构的相对运动,富有鲁棒性产生最佳轨迹以检查感兴趣的解剖学时,当他们构成明确的关节时,这是一项挑战。为了应对这一挑战,本文提出了一种基于视觉的方法,允许自动机器人美国肢体扫描。为此,使用带注释的血管结构的人臂的Atlas MRI模板用于生成轨迹并注册并将其投射到患者的皮肤表面上,以进行机器人的美国获得。为了有效地细分并准确地重建目标的3D容器,我们通过将通道注意模块纳入U-NET型神经网络中,利用连续美国框架中的空间连续性。自动轨迹生成方法对具有各种铰接关节角度的六名志愿者进行评估。在所有情况下,该系统都可以成功地获取志愿者四肢上计划的血管结构。对于一名志愿者,还提供了MRI扫描,可以评估美国图像中扫描动脉的平均半径,从而导致半径估计($ 1.2 \ pm0.05〜mm $)可与MRI地面真相相当($ 1.2 \ $ $) PM0.04〜mm $)。
translated by 谷歌翻译
从人类演示到机器人的动作重返是一种有效的方法,可以减少机器人编程的专业需求和工作量,但面临着人与机器人之间的差异导致的挑战。基于传统的优化的方法是耗时的,依赖良好的初始化,而最近使用前馈神经网络的研究遭受了不良的通知来看不见的运动。此外,他们忽略了人类骨骼和机器人结构中的拓扑信息。在本文中,我们提出了一种新的神经潜在优化方法来解决这些问题。潜在优化利用解码器来建立潜在空间和机器人运动空间之间的映射。之后,通过寻找最佳潜伏向量,可以获得满足机器人约束的重个结果。随着潜在优化,神经初始化利用编码器来提供更好初始化以更快,更好地收敛优化。人体骨架和机器人结构都被建模为更好地利用拓扑信息的图表。我们对重新靶向中文手语进行实验,涉及两只手臂和两只手,对关节中相对关系的额外要求。实验包括在模拟环境中的yumi,nao和辣椒和现实世界环境中的yumi重新定位各种人类示范。验证了所提出的方法的效率和准确性。
translated by 谷歌翻译
从视频和动态数据自动活动识别是一种重要的机器学习问题,其应用范围从机器人到智能健康。大多数现有的作品集中在确定粗动作,如跑步,登山,或切割植物,其具有相对长的持续时间。这对于那些需要细微动作中的高时间分辨率识别应用的一个重要限制。例如,在中风恢复,定量康复剂量需要区分具有亚秒持续时间的运动。我们的目标是弥合这一差距。为此,我们引入了一个大规模,多数据集,StrokeRehab,为包括标记高时间分辨率微妙的短期操作的新动作识别基准。这些短期的行为被称为功能性原语和由河段,运输,重新定位,稳定作用,和空转的。所述数据集由高品质的惯性测量单元的传感器和执行的日常生活像馈送,刷牙等的活动41中风影响的病人的视频数据的,我们表明,基于分割产生嘈杂状态的最先进的现有机型预测时,对这些数据,这往往会导致行动超量。为了解决这个问题,我们提出了高分辨率的活动识别,通过语音识别技术的启发,它是基于一个序列到序列模型,直接预测的动作序列的新方法。这种方法优于国家的最先进的电流在StrokeRehab数据集的方法,以及对标准的基准数据集50Salads,早餐,和拼图。
translated by 谷歌翻译