以准确的,稳健和快速的方式拟合人体,手或面对稀疏输入信号的参数模型,这具有重要的是在AR和VR场景中显着改善浸入。解决这些问题的系统中的一个常见的第一步是直接从输入数据重新分配参数模型的参数。这种方法是快速,稳健的,并且是迭代最小化算法的良好起点。后者搜索最小的能量函数,通常由编码关于问题的结构的知识的数据项和前沿组成。虽然这无疑是一个非常成功的食谱,但前锋往往是手工定义的启发式,发现不同术语之间的正确平衡,以实现高质量的结果是一个非琐碎的任务。此外,转换和优化这些系统以表现方式运行,需要定制实现,要求从工程师和域专家进行大量时间投资。在这项工作中,我们建立了近期学习优化的进步,并提出了由Classic Levenberg-Marquardt算法启发的更新规则。我们展示了所提出的神经优化器对从2D地标的头戴式装置和面部配件的3D体表估计问题的有效性。我们的方法可以很容易地应用于新的模型拟合问题,并提供竞争替代方案,在准确性和速度方面都提供了良好的调谐“传统”模型拟合管道。
translated by 谷歌翻译
由于其许多潜在应用,从视频中估算人类运动是一个活跃的研究领域。大多数最先进的方法可以预测单个图像的人类形状和姿势估计,并且不利用视频中可用的时间信息。许多“野生”运动序列被移动的摄像机捕获,这为估计增加了混合的摄像头和人类运动的并发症。因此,我们介绍了Bodyslam,这是一种单眼大满贯系统,共同估计人体的位置,形状和姿势以及摄像机轨迹。我们还引入了一种新型的人类运动模型,以限制顺序身体姿势并观察场景的规模。通过通过移动的单眼相机捕获的人类运动的视频序列进行的一系列实验,我们证明了Bodyslam与单独估计这些估计相比,可以改善所有人体参数和相机的估计。
translated by 谷歌翻译
This work addresses the problem of estimating the full body 3D human pose and shape from a single color image. This is a task where iterative optimization-based solutions have typically prevailed, while Convolutional Networks (ConvNets) have suffered because of the lack of training data and their low resolution 3D predictions. Our work aims to bridge this gap and proposes an efficient and effective direct prediction method based on ConvNets. Central part to our approach is the incorporation of a parametric statistical body shape model (SMPL) within our end-to-end framework. This allows us to get very detailed 3D mesh results, while requiring estimation only of a small number of parameters, making it friendly for direct network prediction. Interestingly, we demonstrate that these parameters can be predicted reliably only from 2D keypoints and masks. These are typical outputs of generic 2D human analysis ConvNets, allowing us to relax the massive requirement that images with 3D shape ground truth are available for training. Simultaneously, by maintaining differentiability, at training time we generate the 3D mesh from the estimated parameters and optimize explicitly for the surface using a 3D per-vertex loss. Finally, a differentiable renderer is employed to project the 3D mesh to the image, which enables further refinement of the network, by optimizing for the consistency of the projection with 2D annotations (i.e., 2D keypoints or masks). The proposed approach outperforms previous baselines on this task and offers an attractive solution for direct prediction of 3D shape from a single color image.
translated by 谷歌翻译
To facilitate the analysis of human actions, interactions and emotions, we compute a 3D model of human body pose, hand pose, and facial expression from a single monocular image. To achieve this, we use thousands of 3D scans to train a new, unified, 3D model of the human body, SMPL-X, that extends SMPL with fully articulated hands and an expressive face. Learning to regress the parameters of SMPL-X directly from images is challenging without paired images and 3D ground truth. Consequently, we follow the approach of SMPLify, which estimates 2D features and then optimizes model parameters to fit the features. We improve on SMPLify in several significant ways: (1) we detect 2D features corresponding to the face, hands, and feet and fit the full SMPL-X model to these; (2) we train a new neural network pose prior using a large MoCap dataset; (3) we define a new interpenetration penalty that is both fast and accurate; (4) we automatically detect gender and the appropriate body models (male, female, or neutral); (5) our PyTorch implementation achieves a speedup of more than 8× over Chumpy. We use the new method, SMPLify-X, to fit SMPL-X to both controlled images and images in the wild. We evaluate 3D accuracy on a new curated dataset comprising 100 images with pseudo ground-truth. This is a step towards automatic expressive human capture from monocular RGB data. The models, code, and data are available for research purposes at https://smpl-x.is.tue.mpg.de.
translated by 谷歌翻译
我们提出了一种基于优化的新型范式,用于在图像和扫描上拟合3D人类模型。与直接回归输入图像中低维统计体模型(例如SMPL)的参数的现有方法相反,我们训练了每个vertex神经场网络的集合。该网络以分布式的方式预测基于当前顶点投影处提取的神经特征的顶点下降方向。在推断时,我们在梯度降低的优化管道中采用该网络,称为LVD,直到其收敛性为止,即使将所有顶点初始化为单个点,通常也会以一秒钟的分数出现。一项详尽的评估表明,我们的方法能够捕获具有截然不同的身体形状的穿着的人体,与最先进的人相比取得了重大改进。 LVD也适用于人类和手的3D模型配合,为此,我们以更简单,更快的方法对SOTA显示出显着改善。
translated by 谷歌翻译
基于回归的方法可以通过直接以馈送方式将原始像素直接映射到模型参数来估算从单眼图像的身体,手甚至全身模型。但是,参数的微小偏差可能导致估计的网格和输入图像之间的明显未对准,尤其是在全身网格恢复的背景下。为了解决这个问题,我们建议在我们的回归网络中进行锥体网状对准反馈(PYMAF)循环,以进行良好的人类网格恢复,并将其扩展到PYMAF-X,以恢复表达全身模型。 PYMAF的核心思想是利用特征金字塔并根据网格图像对准状态明确纠正预测参数。具体而言,给定当前预测的参数,将相应地从更优质的特征中提取网格对准的证据,并将其送回以进行参数回流。为了增强一致性的看法,采用辅助密集的监督来提供网格图像对应指南,同时引入了空间对齐的注意,以使我们的网络对全球环境的认识。当扩展PYMAF以进行全身网状恢复时,PYMAF-X中提出了一种自适应整合策略来调整肘部扭转旋转,该旋转会产生自然腕部姿势,同时保持部分特定估计的良好性能。我们的方法的功效在几个基准数据集上得到了验证,以实现身体和全身网状恢复,在该数据集中,PYMAF和PYMAF-X有效地改善了网格图像的对准并实现了新的最新结果。具有代码和视频结果的项目页面可以在https://www.liuyebin.com/pymaf-x上找到。
translated by 谷歌翻译
Figure 1: Given challenging in-the-wild videos, a recent state-of-the-art video-pose-estimation approach [31] (top), fails to produce accurate 3D body poses. To address this, we exploit a large-scale motion-capture dataset to train a motion discriminator using an adversarial approach. Our model (VIBE) (bottom) is able to produce realistic and accurate pose and shape, outperforming previous work on standard benchmarks.
translated by 谷歌翻译
We describe the first method to automatically estimate the 3D pose of the human body as well as its 3D shape from a single unconstrained image. We estimate a full 3D mesh and show that 2D joints alone carry a surprising amount of information about body shape. The problem is challenging because of the complexity of the human body, articulation, occlusion, clothing, lighting, and the inherent ambiguity in inferring 3D from 2D. To solve this, we first use a recently published CNN-based method, DeepCut, to predict (bottom-up) the 2D body joint locations. We then fit (top-down) a recently published statistical body shape model, called SMPL, to the 2D joints. We do so by minimizing an objective function that penalizes the error between the projected 3D model joints and detected 2D joints. Because SMPL captures correlations in human shape across the population, we are able to robustly fit it to very little data. We further leverage the 3D model to prevent solutions that cause interpenetration. We evaluate our method, SMPLify, on the Leeds Sports, HumanEva, and Human3.6M datasets, showing superior pose accuracy with respect to the state of the art.
translated by 谷歌翻译
Input Reconstruction Side and top down view Part Segmentation Input Reconstruction Side and top down view Part Segmentation Figure 1: Human Mesh Recovery (HMR): End-to-end adversarial learning of human pose and shape. We describe a real time framework for recovering the 3D joint angles and shape of the body from a single RGB image. The first two rowsshow results from our model trained with some 2D-to-3D supervision, the bottom row shows results from a model that is trained in a fully weakly-supervised manner without using any paired 2D-to-3D supervision. We infer the full 3D body even in case of occlusions and truncations. Note that we capture head and limb orientations.
translated by 谷歌翻译
我们提出了体面意识的人类姿势估计,我们根据模拟代理的本体感受和场景意识以及外部第三人称观察来估计3D构成。与经常诉诸多阶段优化的先前方法不同,非因果推理和复杂的接触建模以估计人类姿势和人类场景的相互作用,我们的方法是一个阶段,因果关系,并在模拟环境中恢复全局3D人类姿势。由于2D第三人称观察与相机姿势结合在一起,我们建议解开相机姿势,并使用在全球坐标框架中定义的多步投影梯度作为我们体现的代理的运动提示。利用物理模拟和预先的场景(例如3D网格),我们在日常环境(库,办公室,卧室等)中模拟代理,并为我们的代理配备环境传感器,以智能导航和与场景的几何形状进行智能导航和互动。我们的方法还仅依靠2D关键点,并且可以在来自流行人类运动数据库的合成数据集上进行培训。为了评估,我们使用流行的H36M和Prox数据集,并首次在具有挑战性的Prox数据集中获得96.7%的成功率,而无需使用Prox运动序列进行培训。
translated by 谷歌翻译
了解来自第一人称观点的社交互动对于许多应用来说至关重要,从辅助机器人到AR / VR。谈论相互作用的第一步是理解人类的姿势和形状。但是,该领域的研究目前受到数据缺乏的阻碍。现有数据集根据大小,注释,地面真实捕获方式或相互作用的多样性有限。我们通过提出EGOBODY来解决这一缺点,这是一个用于复杂3D场景中的社交交互的新型大规模数据集。我们采用Microsoft Hololens2耳机来记录富裕的EGEntric数据流(包括RGB,深度,眼睛凝视,头部和手动跟踪)。为了获得准确的3D地面真理,我们将耳机用多kinect钻机校准并配合富有呈现的SMPL-X体网格到多视图RGB-D帧,重建3D人类姿势和相对于场景的形状。我们收集68个序列,跨越不同的社会学互动类别,并提出了从自我监视视图的3D全体姿态和形状估计的第一个基准。我们的数据集和代码将在https://sanweiliti.github.io/egobody/egobody.html中进行研究。
translated by 谷歌翻译
Model-based human pose estimation is currently approached through two different paradigms. Optimizationbased methods fit a parametric body model to 2D observations in an iterative manner, leading to accurate imagemodel alignments, but are often slow and sensitive to the initialization. In contrast, regression-based methods, that use a deep network to directly estimate the model parameters from pixels, tend to provide reasonable, but not pixel accurate, results while requiring huge amounts of supervision. In this work, instead of investigating which approach is better, our key insight is that the two paradigms can form a strong collaboration. A reasonable, directly regressed estimate from the network can initialize the iterative optimization making the fitting faster and more accurate. Similarly, a pixel accurate fit from iterative optimization can act as strong supervision for the network. This is the core of our proposed approach SPIN (SMPL oPtimization IN the loop). The deep network initializes an iterative optimization routine that fits the body model to 2D joints within the training loop, and the fitted estimate is subsequently used to supervise the network. Our approach is self-improving by nature, since better network estimates can lead the optimization to better solutions, while more accurate optimization fits provide better supervision for the network. We demonstrate the effectiveness of our approach in different settings, where 3D ground truth is scarce, or not available, and we consistently outperform the state-of-the-art model-based pose estimation approaches by significant margins. The project website with videos, results, and code can be found at https://seas.upenn.edu/ ˜nkolot/projects/spin.
translated by 谷歌翻译
Figure 1: Frankenstein (silver) and Adam (gold). This paper presents a 3D human model capable of concurrently tracking the large-scale posture of the body along with the smaller details of a persons facial expressions and hand gestures.
translated by 谷歌翻译
人类将他们的手和身体一起移动,沟通和解决任务。捕获和复制此类协调活动对于虚拟字符至关重要,以实际行为行为。令人惊讶的是,大多数方法分别对待身体和手的3D建模和跟踪。在这里,我们制定了一种手和身体的型号,并将其与全身4D序列合理。当扫描或捕获3D中的全身时,手很小,通常是部分闭塞,使其形状和难以恢复。为了应对低分辨率,闭塞和噪音,我们开发了一种名为Mano(具有铰接和非刚性变形的手模型)的新型号。曼诺从大约1000个高分辨率的3D扫描中学到了31个受试者的手中的大约一定的手。该模型是逼真的,低维,捕获非刚性形状的姿势变化,与标准图形封装兼容,可以适合任何人类的手。 Mano提供从手姿势的紧凑型映射,以构成混合形状校正和姿势协同效应的线性歧管。我们将Mano附加到标准参数化3D体形状模型(SMPL),导致完全铰接的身体和手部模型(SMPL + H)。我们通过用4D扫描仪捕获的综合体,自然,自然,自然的受试者的活动来说明SMPL + H.该配件完全自动,并导致全身型号,自然地移动详细的手动运动和在全身性能捕获之前未见的现实主义。模型和数据在我们的网站上自由用于研究目的(http://mano.is.tue.mpg.de)。
translated by 谷歌翻译
人类性能捕获是一种非常重要的计算机视觉问题,在电影制作和虚拟/增强现实中具有许多应用。许多以前的性能捕获方法需要昂贵的多视图设置,或者没有恢复具有帧到帧对应关系的密集时空相干几何。我们提出了一种新颖的深度致密人体性能捕获的深层学习方法。我们的方法是基于多视图监督的弱监督方式培训,完全删除了使用3D地面真理注释的培训数据的需求。网络架构基于两个单独的网络,将任务解散为姿势估计和非刚性表面变形步骤。广泛的定性和定量评估表明,我们的方法在质量和稳健性方面优于现有技术。这项工作是DeepCAP的扩展版本,在那里我们提供更详细的解释,比较和结果以及应用程序。
translated by 谷歌翻译
地标通常在面部分析中起关键作用,但是仅凭稀疏地标就不能代表身份或表达的许多方面。因此,为了更准确地重建面,地标通常与其他信号(如深度图像或技术)相结合,例如可区分渲染。我们可以通过使用更多地标使事情变得简单吗?在答案中,我们提出了第一种准确地预测10倍地标的方法,覆盖整个头部,包括眼睛和牙齿。这是使用合成培训数据来完成的,该数据保证了完美的地标注释。通过将可变形的模型拟合到这些密集的地标,我们可以在野外实现单眼3D面重建的最新结果。我们表明,密集的地标是通过在单眼和多视图方案中展示准确和表现力的面部绩效捕获来整合跨帧面部形状信息的理想信号。这种方法也非常有效:我们可以预测密集的地标,并在单个CPU线程上以超过150fps的速度适合我们的3D面模型。请参阅我们的网站:https://microsoft.github.io/denselandmarks/。
translated by 谷歌翻译
在本文中,我们介绍一种方法来自动重建与来自单个RGB视频相互作用的人的3D运动。我们的方法估计人的3D与物体姿势,接触位置和施加在人体上的接触力的姿势。这项工作的主要贡献是三倍。首先,我们介绍一种通过建模触点和相互作用的动态来联合估计人与人的运动和致动力的方法。这是一个大规模的轨迹优化问题。其次,我们开发一种方法来从输入视频自动识别,从输入视频中识别人和物体或地面之间的2D位置和时序,从而显着简化了优化的复杂性。第三,我们在最近的视频+ Mocap数据集上验证了捕获典型的Parkour行动的方法,并在互联网视频的新数据集上展示其表现,显示人们在不受约束的环境中操纵各种工具。
translated by 谷歌翻译
大多数实时人类姿势估计方法都基于检测接头位置。使用检测到的关节位置,可以计算偏差和肢体的俯仰。然而,由于这种旋转轴仍然不观察,因此不能计算沿着肢体沿着肢体至关重要的曲折,这对于诸如体育分析和计算机动画至关重要。在本文中,我们引入了方向关键点,一种用于估计骨骼关节的全位置和旋转的新方法,仅使用单帧RGB图像。灵感来自Motion-Capture Systems如何使用一组点标记来估计全骨骼旋转,我们的方法使用虚拟标记来生成足够的信息,以便准确地推断使用简单的后处理。旋转预测改善了接头角度最佳报告的平均误差48%,并且在15个骨骼旋转中实现了93%的精度。该方法还通过MPJPE在原理数据集上测量,通过MPJPE测量,该方法还改善了当前的最新结果14%,并概括为野外数据集。
translated by 谷歌翻译
培训视频中人类姿势估计的最先进模型需要具有很难获得的注释的数据集。尽管最近已将变压器用于身体姿势序列建模,但相关方法依靠伪地真相来增强目前有限的培训数据可用于学习此类模型。在本文中,我们介绍了Posebert,Posebert是一个通过掩盖建模对3D运动捕获(MOCAP)数据进行全面训练的变压器模块。它是简单,通用和通用的,因为它可以插入任何基于图像的模型的顶部,以在基于视频的模型中使用时间信息。我们展示了Posebert的变体,不同的输入从3D骨骼关键点到全身或仅仅是手(Mano)的3D参数模型的旋转。由于Posebert培训是任务不可知论的,因此该模型可以应用于姿势细化,未来的姿势预测或运动完成等几个任务。我们的实验结果验证了在各种最新姿势估计方法之上添加Posebert始终提高其性能,而其低计算成本使我们能够在实时演示中使用它,以通过A的机器人手使机器人手通过摄像头。可以在https://github.com/naver/posebert上获得测试代码和型号。
translated by 谷歌翻译
全面监督的人类网格恢复方法是渴望数据的,由于3D规定基准数据集的可用性有限和多样性,因此具有较差的概括性。使用合成数据驱动的训练范例,已经从合成配对的2D表示(例如2D关键点和分段掩码)和3D网格中训练了模型的最新进展,其中已使用合成数据驱动的训练范例和3D网格进行了训练。但是,由于合成训练数据和实际测试数据之间的域间隙很难解决2D密集表示,因此很少探索合成密集的对应图(即IUV)。为了减轻IUV上的这个领域差距,我们提出了使用可靠但稀疏表示的互补信息(2D关键点)提出的交叉代理对齐。具体而言,初始网格估计和两个2D表示之间的比对误差将转发为回归器,并在以下网格回归中动态校正。这种适应性的交叉代理对准明确地从偏差和捕获互补信息中学习:从稀疏的表示和浓郁的浓度中的稳健性。我们对多个标准基准数据集进行了广泛的实验,并展示了竞争结果,帮助减少在人类网格估计中生产最新模型所需的注释工作。
translated by 谷歌翻译