3D姿势估计最近在计算机视觉领域中获得了重大利益。现有的3D姿势估计方法非常依赖大尺寸井井有条的3D姿势数据集,并且由于训练集中的3D姿势的多样性有限,它们在看不见的姿势上的模型概括不佳。在这项工作中,我们提出了一种新型的人类姿势发生器Posegu,它仅能访问少量的种子样本,同时为反事实风险最小化以追求无偏见的评估目标。广泛的实验表明,在三个流行的基准数据集上,几乎所有正在考虑的最先进的3D人类姿势方法。经验分析还证明,Posegu会产生3D姿势,具有改进的数据多样性和更好的概括能力。
translated by 谷歌翻译
由于数据集的多样性,姿势估计量的概括能力很差。为了解决这个问题,我们通过DH向前运动学模型提出了姿势增强解决方案,我们称之为DH-AUG。我们观察到,先前的工作都是基于单帧姿势增强的,如果将其直接应用于视频姿势估计器,则将存在一些先前忽略的问题:(i)骨旋转的角度歧义(多个溶液); (ii)生成的骨骼视频缺乏运动连续性。为了解决这些问题,我们提出了一个基于DH正向运动学模型的特殊发电机,该模型称为DH生成器。广泛的实验表明,DH-AUG可以大大提高视频姿势估计器的概括能力。另外,当应用于单帧3D姿势估计器时,我们的方法的表现优于先前的最佳姿势增强方法。源代码已在https://github.com/hlz0606/dh-aug-dh-forward-kinematics-model-driven-driven-augmentation-for-3d-human pose-easteration上发布。
translated by 谷歌翻译
本文解决了3D人类姿势估计模型的交叉数据集泛化问题。在新数据集上测试预先训练的3D姿势估计值会导致主要的性能下降。以前的方法主要通过改善培训数据的多样性来解决这个问题。我们认为单独的多样性是不够的,并且训练数据的特征需要适应新数据集的那些,例如相机观点,位置,人类动作和体型。为此,我们提出了一种完全的端到端框架,该端到端框架从源数据集生成合成3D人体运动,并使用它们来微调3D姿势估计器。适配遵循对抗培训计划。来自源3D构成发电机生成一系列3D姿势和用于将生成的姿势投影到新颖视图的相机方向。如果没有任何3D标签或相机信息,则成功地学习从目标数据集创建合成3D构成,同时仅在2D姿势培训。在Human3.6m,MPI-INF-3DHP,3DPW和SKI-Pose数据集的实验中,我们的方法优于跨数据集评估的先前工作14%和以前的半监督学习方法,使用部分3D注释达到16%。
translated by 谷歌翻译
在分析人类运动视频时,来自现有姿势估计器的输出抖动是高度不平衡的。大多数帧只遭受轻微的傻瓜,而在那些具有遮挡或图像质量差的框架中发生了重要的困难。这种复杂的姿势通常持续存在于视频中,导致估计结果差和大型抖动的连续帧。现有的基于时间卷积网络,经常性神经网络或低通滤波器的现有姿态平滑解决方案不能处理这种长期抖动问题,而不考虑抖动视频段内的显着和持久的错误。通过上述观察,我们提出了一种新颖的即插即用细化网络,即光滑网络,可以附加到任何现有的姿势估计,以提高其时间平滑度,同时提高其每个帧精度。特别是,SmoothNet是一个简单而有效的数据驱动的全连接网络,具有大的接收领域,有效地减轻了长期抖动与不可靠的估计结果的影响。我们在十二个骨干网络上进行广泛的实验,跨越2D和3D姿势估算,身体恢复和下游任务。我们的结果表明,所提出的光滑网络始终如一地优于现有的解决方案,尤其是具有高误差和长期抖动的夹子。
translated by 谷歌翻译
从单个图像的人类姿势估计是一个充满挑战的问题,通常通过监督学习解决。不幸的是,由于3D注释需要专用的运动捕获系统,因此许多人类活动尚不存在标记的培训数据。因此,我们提出了一种无监督的方法,该方法学会从单个图像预测3D人类姿势,同时只有2D姿势数据培训,这可能是人群的并且已经广泛可用。为此,我们估计最有可能过于随机投影的3D姿势,其中使用2D姿势的归一化流程估计的可能性。虽然以前的工作需要在训练数据集中的相机旋转上需要强大的前锋,但我们了解了相机角度的分布,显着提高了性能。我们的贡献的另一部分是通过首先将2D突出到线性子空间来稳定高维3D姿势数据上的标准化流动的训练。在许多指标中,我们优于基准数据集Humanets3.6m和MPI-INF-3DHP的最先进的无人监督的人类姿势估算方法。
translated by 谷歌翻译
本文认为共同解决估计3D人体的高度相关任务,并从RGB图像序列预测未来的3D运动。基于Lie代数姿势表示,提出了一种新的自投影机制,自然保留了人类运动运动学。通过基于编码器 - 解码器拓扑的序列到序列的多任务架构进一步促进了这一点,这使我们能够利用两个任务共享的公共场所。最后,提出了一个全球细化模块来提高框架的性能。我们的方法称为PoMomemet的效力是通过消融测试和人文3.6M和Humaneva-I基准的实证评估,从而获得与最先进的竞争性能。
translated by 谷歌翻译
将2D人的姿势提升到3D姿势是一个重要而挑战的任务。现有的3D姿势估计遭受了1)2D和3D数据之间的固有模糊,2)野外缺少缺乏标记的2D-3D姿势对。人类能够从2D图像中的人体3D姿势或具有最低歧义的一组2D身体键点,这应该归因于我们在我们脑海中获得的人体的先验知识。灵感来自于此,我们提出了一个新的框架,利用标记的3D人类姿势来学习人体的3D概念来减少歧义。要在2D姿势上对身体概念进行达成共识,我们的主要洞察力是将2D人类姿势和3D人类姿势视为两个不同的域。通过调整两个域,从3D姿势中学到的身体知识应用于2D姿势并引导2D姿势编码器,以产生信息3D“想象力”,因为在姿势提升中嵌入。从域适应角度受益,所提出的框架统一了一个原则框架的监督和半监督的3D姿态估计。广泛的实验表明,所提出的方法可以在标准基准上实现最先进的性能。更重要的是,验证了明确学习的3D身体概念有效地减轻了2D姿势提升中的2D-3D模糊性,提高了泛化,并使网络能够利用丰富的未标记的2D数据。
translated by 谷歌翻译
本文提出了一个简单的基线框架,用于基于视频的2D/3D人姿势估计,该估计可以比现有作品实现10倍提高效率,而无需任何性能降级,名为Deciwatch。与当前在视频中估算每个帧的解决方案不同,Deciwatch引入了一个简单而有效的样品探测框架框架,该框架只能通过人类动作的连续性和轻巧的姿势表示,仅观看稀疏采样的框架。具体而言,DeciWatch均匀地示例少于10%的视频帧以进行详细估计,以有效的变压器体系结构来确定估计的2D/3D姿势,然后使用另一个基于变压器的网络准确地恢复其余帧。通过四个数据集的三个基于视频的人姿势估计和身体网格恢复任务的全面实验结果验证了Deciwatch的效率和有效性。代码可在https://github.com/cure-lab/deciwatch上找到。
translated by 谷歌翻译
尽管单眼3D姿势估计似乎在公共数据集上取得了非常准确的结果,但它们的概括能力在很大程度上被忽略了。在这项工作中,我们对现有方法进行系统评估,并发现在对不同的摄像机,人体姿势和外观进行测试时,它们会出现更大的错误。为了解决这个问题,我们介绍了VirtualPose,这是一个两阶段的学习框架,以利用该任务特定的隐藏的“免费午餐”,即免费生成无限数量的姿势和摄像头,以免费培训模型。为此,第一阶段将图像转换为抽象的几何表示(AGR),然后第二阶段将它们映射到3D姿势。它从两个方面解决了概括问题:(1)可以在不同的2D数据集上对第一阶段进行培训,以降低过度合适外观的风险; (2)第二阶段可以接受从大量虚拟摄像机和姿势合成的不同AGR训练。它的表现优于SOTA方法,而无需使用任何配对的图像和3D姿势,从而为实用应用铺平了道路。代码可从https://github.com/wkom/virtualpose获得。
translated by 谷歌翻译
本文介绍了一个新型的预训练的空间时间多对一(p-STMO)模型,用于2D到3D人类姿势估计任务。为了减少捕获空间和时间信息的困难,我们将此任务分为两个阶段:预训练(I期)和微调(II阶段)。在第一阶段,提出了一个自我监督的预训练子任务,称为蒙面姿势建模。输入序列中的人关节在空间和时间域中随机掩盖。利用denoising自动编码器的一般形式以恢复原始的2D姿势,并且编码器能够以这种方式捕获空间和时间依赖性。在第二阶段,将预训练的编码器加载到STMO模型并进行微调。编码器之后是一个多对一的框架聚合器,以预测当前帧中的3D姿势。尤其是,MLP块被用作STMO中的空间特征提取器,其性能比其他方法更好。此外,提出了一种时间下采样策略,以减少数据冗余。在两个基准上进行的广泛实验表明,我们的方法优于较少参数和较少计算开销的最先进方法。例如,我们的P-STMO模型在使用CPN作为输入的2D姿势时,在Human3.6M数据集上达到42.1mm MPJPE。同时,它为最新方法带来了1.5-7.1倍的速度。代码可在https://github.com/patrick-swk/p-stmo上找到。
translated by 谷歌翻译
Monocular 3D human pose estimation is quite challenging due to the inherent ambiguity and occlusion, which often lead to high uncertainty and indeterminacy. On the other hand, diffusion models have recently emerged as an effective tool for generating high-quality images from noise. Inspired by their capability, we explore a novel pose estimation framework (DiffPose) that formulates 3D pose estimation as a reverse diffusion process. We incorporate novel designs into our DiffPose that facilitate the diffusion process for 3D pose estimation: a pose-specific initialization of pose uncertainty distributions, a Gaussian Mixture Model-based forward diffusion process, and a context-conditioned reverse diffusion process. Our proposed DiffPose significantly outperforms existing methods on the widely used pose estimation benchmarks Human3.6M and MPI-INF-3DHP.
translated by 谷歌翻译
Learning 3D human pose prior is essential to human-centered AI. Here, we present GFPose, a versatile framework to model plausible 3D human poses for various applications. At the core of GFPose is a time-dependent score network, which estimates the gradient on each body joint and progressively denoises the perturbed 3D human pose to match a given task specification. During the denoising process, GFPose implicitly incorporates pose priors in gradients and unifies various discriminative and generative tasks in an elegant framework. Despite the simplicity, GFPose demonstrates great potential in several downstream tasks. Our experiments empirically show that 1) as a multi-hypothesis pose estimator, GFPose outperforms existing SOTAs by 20% on Human3.6M dataset. 2) as a single-hypothesis pose estimator, GFPose achieves comparable results to deterministic SOTAs, even with a vanilla backbone. 3) GFPose is able to produce diverse and realistic samples in pose denoising, completion and generation tasks. Project page https://sites.google.com/view/gfpose/
translated by 谷歌翻译
6D对象姿势估计是计算机视觉和机器人研究中的基本问题之一。尽管最近在同一类别内将姿势估计概括为新的对象实例(即类别级别的6D姿势估计)方面已做出了许多努力,但考虑到有限的带注释数据,它仍然在受限的环境中受到限制。在本文中,我们收集了Wild6D,这是一种具有不同实例和背景的新的未标记的RGBD对象视频数据集。我们利用这些数据在野外概括了类别级别的6D对象姿势效果,并通过半监督学习。我们提出了一个新模型,称为呈现姿势估计网络reponet,该模型使用带有合成数据的自由地面真实性共同训练,以及在现实世界数据上具有轮廓匹配的目标函数。在不使用实际数据上的任何3D注释的情况下,我们的方法优于先前数据集上的最先进方法,而我们的WILD6D测试集(带有手动注释进行评估)则优于较大的边距。带有WILD6D数据的项目页面:https://oasisyang.github.io/semi-pose。
translated by 谷歌翻译
在这项工作中,我们解决了共同跟踪手对象姿势并从野外深度点云序列重建形状的具有挑战性,HandTrackNet,以估计框架间的手动运动。我们的HandTrackNet提出了一个新型的手姿势构成典型化模块,以简化跟踪任务,从而产生准确且稳健的手工关节跟踪。然后,我们的管道通过将预测的手关节转换为基于模板的参数手模型mano来重建全手。对于对象跟踪,我们设计了一个简单而有效的模块,该模块从第一帧估算对象SDF并执行基于优化的跟踪。最后,采用联合优化步骤执行联合手和物体推理,从而减轻了闭塞引起的歧义并进一步完善了手姿势。在训练过程中,整个管道仅看到纯粹的合成数据,这些数据与足够的变化并通过深度模拟合成,以易于概括。整个管道与概括差距有关,因此可以直接传输到真实的野外数据。我们在两个真实的手对象交互数据集上评估我们的方法,例如HO3D和DEXYCB,没有任何填充。我们的实验表明,所提出的方法显着优于先前基于深度的手和对象姿势估计和跟踪方法,以9 fps的帧速率运行。
translated by 谷歌翻译
我们提出了Tipsy-Gan,这是一种提高无监督对抗2d至3D人类姿势估计的准确性和稳定性的新方法。在我们的工作中,我们证明了人运动骨骼不应被假定为单一的空间相互依存的结构。实际上,我们认为,当训练期间提供完整的2D姿势时,存在一种固有的偏见,在其中,关键点的3D坐标在空间上依赖于所有其他关键点的2D坐标。为了研究我们的假设,我们遵循以前的对抗方法,但在运动骨架,躯干和腿部的空间独立部分上训练两个发电机。我们发现,改善自抗性周期是降低评估误差的关键,因此在训练过程中引入了新的一致性约束。通过这些发电机的知识蒸馏产生尖端模型,该模型可以预测整个2D姿势的3D尺寸,并改善结果。此外,我们在先前的工作中解决了一个未解决的问题,即在一个真正无监督的情况下要训练多长时间。我们表明,对于两个独立的发电机,对手训练的稳定性比崩溃的独奏发电机的稳定性提高了。与人为36m数据集中的基线独奏器相比,Tipsy将平均误差降低了17 \%。 Tipsy对其他无监督的方法进行了改进,同时在对人类360万和MPI-INF-3DHP数据集的评估过程中也强烈反对受监督和弱监督的方法。
translated by 谷歌翻译
培训视频中人类姿势估计的最先进模型需要具有很难获得的注释的数据集。尽管最近已将变压器用于身体姿势序列建模,但相关方法依靠伪地真相来增强目前有限的培训数据可用于学习此类模型。在本文中,我们介绍了Posebert,Posebert是一个通过掩盖建模对3D运动捕获(MOCAP)数据进行全面训练的变压器模块。它是简单,通用和通用的,因为它可以插入任何基于图像的模型的顶部,以在基于视频的模型中使用时间信息。我们展示了Posebert的变体,不同的输入从3D骨骼关键点到全身或仅仅是手(Mano)的3D参数模型的旋转。由于Posebert培训是任务不可知论的,因此该模型可以应用于姿势细化,未来的姿势预测或运动完成等几个任务。我们的实验结果验证了在各种最新姿势估计方法之上添加Posebert始终提高其性能,而其低计算成本使我们能够在实时演示中使用它,以通过A的机器人手使机器人手通过摄像头。可以在https://github.com/naver/posebert上获得测试代码和型号。
translated by 谷歌翻译
现代的多层感知器(MLP)模型在不自我注意力的情况下学习视觉表现方面显示了竞争成果。但是,现有的MLP模型不擅长捕获本地细节,并且缺乏人类配置的先验知识,这限制了其骨骼表示学习的模型能力。为了解决这些问题,我们提出了一个名为GraphMLP的简单而有效的图形增强的MLP样结构,该体系结构将MLP和图形卷积网络(GCN)组合在3D人类姿势估计的全球 - 局部 - 单位图形统一体系中。GraphMLP将人体的图结构结合到MLP模型中,以满足域特异性需求,同时允许局部和全局空间相互作用。广泛的实验表明,所提出的GraphMLP在两个数据集(即Human3.6M和MPI-INF-3DHP)上实现了最先进的性能。我们的源代码和预估计的模型将公开可用。
translated by 谷歌翻译
多个摄像机制造的视频录制的可用性越来越多,为姿势和运动重建方法中的减少和深度歧义提供了新的方法。然而,多视图算法强烈依赖于相机参数;特别地,相机之间的相对介绍。在不受控制的设置中,这种依赖变为一旦转移到动态捕获一次。我们介绍Flex(免费多视图重建),一个端到端的无参数多视图模型。 Flex是无意义的参数,即它不需要任何相机参数,都不是内在的也不是外在的。我们的关键思想是骨架部件和骨长之间的3D角度是不变的相机位置。因此,学习3D旋转和骨长而不是位置允许预测所有相机视图的公共值。我们的网络采用多个视频流,学习通过新型多视图融合层的融合深度特征,并重建单一一致的骨架,其具有时间上相干的关节旋转。我们展示了人类3.6M和KTH多视图足球II数据集的定量和定性结果,以及动态摄像头捕获的合成多人视频流。我们将模型与最先进的方法进行比较,这些方法没有参与参数,并在没有相机参数的情况下显示,我们在获得相机参数可用时获取可比结果的同时优于较大的余量。我们的项目页面上可以使用代码,培训的模型,视频示例和更多材料。
translated by 谷歌翻译
单眼3D人姿势估计技术有可能大大增加人类运动数据的可用性。单位图2D-3D提升使用图卷积网络(GCN)的表现最佳模型,通常需要一些手动输入来定义不同的身体关节之间的关系。我们提出了一种基于变压器的新型方法,该方法使用更广泛的自我发场机制来学习代表关节的代币序列。我们发现,使用中间监督以及堆叠编码器福利性能之间的剩余连接。我们还建议,将错误预测作为多任务学习框架的一部分,可以通过允许网络弥补其置信度来改善性能。我们进行广泛的消融研究,以表明我们的每项贡献都会提高性能。此外,我们表明我们的方法的表现超过了最新的单帧3D人类姿势估计的最新技术状态。我们的代码和训练有素的模型可在GitHub上公开提供。
translated by 谷歌翻译
3D hand pose estimation from RGB images suffers from the difficulty of obtaining the depth information. Therefore, a great deal of attention has been spent on estimating 3D hand pose from 2D hand joints. In this paper, we leverage the advantage of spatial-temporal Graph Convolutional Neural Networks and propose LG-Hand, a powerful method for 3D hand pose estimation. Our method incorporates both spatial and temporal dependencies into a single process. We argue that kinematic information plays an important role, contributing to the performance of 3D hand pose estimation. We thereby introduce two new objective functions, Angle and Direction loss, to take the hand structure into account. While Angle loss covers locally kinematic information, Direction loss handles globally kinematic one. Our LG-Hand achieves promising results on the First-Person Hand Action Benchmark (FPHAB) dataset. We also perform an ablation study to show the efficacy of the two proposed objective functions.
translated by 谷歌翻译