现有的数据驱动方法用于披上姿势的人体,尽管有效,但无法处理任意拓扑的服装,并且通常不是端到端的。为了解决这些局限性,我们提出了一条端到端可区分管道,该管道用隐式表面表示服装,并学习以铰接式身体模型的形状和姿势参数为条件的皮肤场。为了限制身体的插入和人工制品,我们提出了一种解释意识的训练数据的预处理策略和新颖的训练损失,在覆盖服装的同时惩罚了自身交流。我们证明,我们的方法可以针对最新方法产生更准确的结果和变形。此外,我们表明我们的方法凭借其端到端的可不同性,可以从图像观察中共同恢复身体和服装参数,这是以前的工作无法做到的。
translated by 谷歌翻译
Recent approaches to drape garments quickly over arbitrary human bodies leverage self-supervision to eliminate the need for large training sets. However, they are designed to train one network per clothing item, which severely limits their generalization abilities. In our work, we rely on self-supervision to train a single network to drape multiple garments. This is achieved by predicting a 3D deformation field conditioned on the latent codes of a generative network, which models garments as unsigned distance fields. Our pipeline can generate and drape previously unseen garments of any topology, whose shape can be edited by manipulating their latent codes. Being fully differentiable, our formulation makes it possible to recover accurate 3D models of garments from partial observations -- images or 3D scans -- via gradient descent. Our code will be made publicly available.
translated by 谷歌翻译
在计算机愿景中已经过了很长一段时间的3D表示和人体重建。传统方法主要依赖于参数统计线性模型,将可能的身体的空间限制在线性组合。近来,一些方法才试图利用人体建模的神经隐式表示,同时展示令人印象深刻的结果,它们是通过表示能力的限制或没有物理有意义和可控的。在这项工作中,我们提出了一种用于人体的新型神经隐含表示,其具有完全可分辨:无戒开的形状和姿势潜在空间的优化。与事先工作相反,我们的代表是基于运动模型设计的,这使得可以为姿势动画等任务提供可控制的表示,同时允许为3D配件和姿势跟踪等任务进行整形和姿势。我们的模型可以直接培训和精细调整,直接在具有精心设计的损失的非水密原始数据上。实验展示了SOTA方法的改进的3D重建性能,并显示了我们的方法来形状插值,模型拟合,姿势跟踪和运动重新定位的适用性。
translated by 谷歌翻译
4D隐式表示中的最新进展集中在全球控制形状和运动的情况下,低维潜在向量,这很容易缺少表面细节和累积跟踪误差。尽管许多深层的本地表示显示了3D形状建模的有希望的结果,但它们的4D对应物尚不存在。在本文中,我们通过提出一个新颖的局部4D隐性代表来填补这一空白,以动态穿衣人,名为Lord,具有4D人类建模和局部代表的优点,并实现具有详细的表面变形的高保真重建,例如衣服皱纹。特别是,我们的主要见解是鼓励网络学习本地零件级表示的潜在代码,能够解释本地几何形状和时间变形。为了在测试时间进行推断,我们首先估计内部骨架运动在每个时间步中跟踪本地零件,然后根据不同类型的观察到的数据通过自动编码来优化每个部分的潜在代码。广泛的实验表明,该提出的方法具有强大的代表4D人类的能力,并且在实际应用上胜过最先进的方法,包括从稀疏点,非刚性深度融合(质量和定量)进行的4D重建。
translated by 谷歌翻译
SMPL(SMPL)的参数3D身体模型仅代表最小衣服的人,并且很难扩展到衣服,因为它们具有固定的网格拓扑和分辨率。为了解决这些局限性,最近的工作使用隐式表面或点云来建模衣服。虽然不受拓扑的限制,但这种方法仍然很难为偏离身体的偏离的衣服建模,例如裙子和连衣裙。这是因为他们依靠身体来通过将衣服表面放置为参考形状。不幸的是,当衣服远离身体时,这个过程的定义很差。此外,他们使用线性混合剥皮来摆姿势,并将皮肤重量与下面的身体部位绑在一起。相比之下,我们在没有规范化的情况下对局部坐标空间中的衣服变形进行了建模。我们还放松皮肤重量以使多个身体部位影响表面。具体而言,我们用粗糙的阶段扩展了基于点的方法,该方法用学习的姿势独立的“粗大形状”代替了规范化,该方法可以捕获裙子(如裙子)的粗糙表面几何形状。然后,我们使用一个网络来完善该网络,该网络会渗透到粗糙表示中的线性混合剥皮权重和姿势依赖的位移。该方法适合符合身体并偏离身体的服装。我们通过从示例中学习特定于人的化身,然后展示如何以新的姿势和动作来展示它们的有用性。我们还表明,该方法可以直接从原始扫描中学习缺少数据,从而大大简化了创建逼真的化身的过程。代码可用于研究目的,可在{\ small \ url {https://qianlim.github.io/skirt}}中使用。
translated by 谷歌翻译
我们呈现Hipnet,一个在许多姿势的多个科目上培训的神经隐式姿势网络。HIPNET可以从姿势特定的细节中解散特定主题细节,有效地使我们能够从一个受试者到另一个受试者的retrarget运动,或通过潜在空间插值在关键帧之间设置动画。为此,我们采用基于分层的基于骨架的表示,以便在规范的未浮现空间上学习符号距离功能。这种基于联合的分解使我们能够代表本地围绕身体关节周围的空间的细微细节。与以前的神经隐式方法不同,需要基础真实SDF进行培训,我们的模型我们只需要一个构成的骨架和点云进行培训,我们没有对传统的参数模型或传统的剥皮方法的依赖。我们在各种单一主题和多主题基准上实现最先进的结果。
translated by 谷歌翻译
我们提出了一种基于优化的新型范式,用于在图像和扫描上拟合3D人类模型。与直接回归输入图像中低维统计体模型(例如SMPL)的参数的现有方法相反,我们训练了每个vertex神经场网络的集合。该网络以分布式的方式预测基于当前顶点投影处提取的神经特征的顶点下降方向。在推断时,我们在梯度降低的优化管道中采用该网络,称为LVD,直到其收敛性为止,即使将所有顶点初始化为单个点,通常也会以一秒钟的分数出现。一项详尽的评估表明,我们的方法能够捕获具有截然不同的身体形状的穿着的人体,与最先进的人相比取得了重大改进。 LVD也适用于人类和手的3D模型配合,为此,我们以更简单,更快的方法对SOTA显示出显着改善。
translated by 谷歌翻译
学习重建3D服装对于在不同的姿势中穿着不同形状的3D人体来说是重要的。以前的作品通常依赖于2D图像作为输入,但是遭受尺度和构成歧义。为了规避由2D图像引起的问题,我们提出了一个原则的框架,服装4D,它使用穿着人的3D点云序列来服装重建。 Garment4D有三个专用步骤:顺序服装登记,典型服装估算和摆动衣服重建。主要挑战是两倍:1)有效的3D特征学习精细细节,2)捕获由服装和人体之间的相互作用引起的服装动力学,特别是对于像裙子这样的松散服装。为了解开这些问题,我们介绍了一种新的提议引导的分层特征网络和迭代图卷积网络,其集成了高级语义特征和低级几何特征,以进行精细细节重建。此外,我们提出了一种用于平滑服装运动的时间变压器。与非参数方法不同,我们的方法的重建服装网格可与人体分离,并且具有很强的解释性,这对于下游任务是期望的。作为本任务的第一次尝试,通过广泛的实验定性和定量地说明了高质量的重建结果。代码在https://github.com/hongfz16/garment4d提供。
translated by 谷歌翻译
最近的工作建模3D开放表面培训深度神经网络以近似无符号距离字段(UDF)并隐含地代表形状。要将此表示转换为显式网格,它们要么使用计算上昂贵的方法来对表面的致密点云采样啮合,或者通过将其膨胀到符号距离字段(SDF)中来扭曲表面。相比之下,我们建议直接将深度UDFS直接以延伸行进立方体的开放表面,通过本地检测表面交叉。我们的方法是幅度的序列,比啮合致密点云,比膨胀开口表面更准确。此外,我们使我们的表面提取可微分,并显示它可以帮助稀疏监控信号。
translated by 谷歌翻译
在两个非辅助变形形状之间建立对应关系是视觉计算中最根本的问题之一。当对现实世界中的挑战(例如噪声,异常值,自我结合等)挑战时,现有方法通常会显示出弱的弹性。另一方面,自动描述器在学习几何学上有意义的潜在嵌入方面表现出强大的表现力。但是,它们在\ emph {形状分析}中的使用受到限制。在本文中,我们介绍了一种基于自动码头框架的方法,该方法在固定模板上学习了一个连续形状的变形字段。通过监督点在表面上的变形场,并通过小说\ emph {签名距离正则化}(SDR)正规化点偏面的正规化,我们学习了模板和Shape \ Emph {卷}之间的对齐。经过干净的水密网眼培训,\ emph {没有}任何数据启发,我们证明了在受损的数据和现实世界扫描上表现出令人信服的性能。
translated by 谷歌翻译
尽管最近取得了成功,但基于学习的深度学习方法用于预测身体运动下的3D服装变形,却遇到了服装与身体之间的互穿问题。为了解决这个问题,我们提出了一种新颖的碰撞处理神经网络层,称为排斥力单位(REFU)。根据基础主体的签名距离函数(SDF)和当前的服装顶点位置,Repu预测了将任何互穿顶点推向无冲突的配置,同时保留精细的几何学细节,这些偏移量将任何互穿顶点推向无冲突的配置。我们表明,RECU可以通过可训练的参数进行区分,并且可以集成到预测3D服装变形的不同网络骨架中。我们的实验表明,与基于碰撞损失或后处理优化的先前方法相比,相比,RECU可显着减少身体与服装之间的碰撞数量,并更好地保留几何细节。
translated by 谷歌翻译
我们提出了FITE,这是一种对服装中的人体化身进行建模的第一刻度框架。我们的框架首先学习了代表粗衣拓扑的隐式表面模板,然后采用模板来指导点集的产生,从而进一步捕获姿势依赖的服装变形,例如皱纹。我们的管道结合了隐式和明确表示的优点,即处理变化拓扑的能力以及有效捕获细节的能力。我们还提出了扩散的皮肤,以促进模板训练,尤其是用于宽松衣服的模板训练,以及基于投影的姿势编码,以从网格模板中提取姿势信息,而无需预定义的紫外线图或连接性。我们的代码可在https://github.com/jsnln/fite上公开获取。
translated by 谷歌翻译
为了使3D人的头像广泛可用,我们必须能够在任意姿势中产生各种具有不同身份和形状的多种3D虚拟人。由于衣服的身体形状,复杂的关节和由此产生的丰富,随机几何细节,这项任务是挑战的挑战。因此,目前代表3D人的方法不提供服装中的人的全部生成模型。在本文中,我们提出了一种新的方法,这些方法可以学习在具有相应的剥皮重量的各种衣服中产生详细的3D形状。具体而言,我们设计了一个多主题前进的剥皮模块,这些模块只有几个受试者的未预装扫描。为了捕获服装中高频细节的随机性,我们利用对抗的侵害制定,鼓励模型捕获潜在统计数据。我们提供了经验证据,这导致了皱纹的局部细节的现实生成。我们表明我们的模型能够产生佩戴各种和详细的衣服的自然人头像。此外,我们表明我们的方法可以用于拟合人类模型到原始扫描的任务,优于以前的最先进。
translated by 谷歌翻译
我们介绍DMTET,深度3D条件生成模型,可以使用诸如粗体素的简单用户指南来合成高分辨率3D形状。它通过利用新型混合3D表示来结婚隐式和显式3D表示的优点。与当前隐含的方法相比,培训涉及符号距离值,DMTET直接针对重建的表面进行了优化,这使我们能够用更少的伪像来合成更精细的几何细节。与直接生成诸如网格之类的显式表示的深度3D生成模型不同,我们的模型可以合成具有任意拓扑的形状。 DMTET的核心包括可变形的四面体网格,其编码离散的符号距离函数和可分行的行进Tetrahedra层,其将隐式符号距离表示转换为显式谱图表示。这种组合允许使用在表面网格上明确定义的重建和对抗性损耗来联合优化表面几何形状和拓扑以及生成细分层次结构。我们的方法显着优于来自粗体素输入的条件形状合成的现有工作,培训在复杂的3D动物形状的数据集上。项目页面:https://nv-tlabs.github.io/dmtet/
translated by 谷歌翻译
本文解决了从多视频视频中重建动画人类模型的挑战。最近的一些作品提出,将一个非刚性变形的场景分解为规范的神经辐射场和一组变形场,它们映射观察空间指向规范空间,从而使它们能够从图像中学习动态场景。但是,它们代表变形场作为转换矢量场或SE(3)字段,这使得优化高度不受限制。此外,这些表示无法通过输入动议明确控制。取而代之的是,我们基于线性混合剥皮算法引入了一个姿势驱动的变形场,该算法结合了混合重量场和3D人类骨架,以产生观察到的对应对应。由于3D人类骨骼更容易观察到,因此它们可以正规化变形场的学习。此外,可以通过输入骨骼运动来控制姿势驱动的变形场,以生成新的变形字段来动画规范人类模型。实验表明,我们的方法显着优于最近的人类建模方法。该代码可在https://zju3dv.github.io/animatable_nerf/上获得。
translated by 谷歌翻译
神经隐式表面表示作为有希望以连续和独立的方式捕获3D形状的承诺范式。然而,将它们适应铰接形状是非微不足道的。现有方法学习落后的扭曲领域,即地图变形到规范点。然而,这是有问题的,因为后向扭曲字段依赖于姿势,因此需要大量数据来学习。为了解决这个问题,我们通过学习前向变形领域而没有直接监督,将多边形网格与神经隐式表面的线性混合皮肤(LBS)的优势相结合的Snarf。该变形场在规范,姿势独立的空间中定义,允许概括地看不见。学习从姿势网格中的变形字段独立地是具有挑战性,因为变形点的对应关系被隐含地定义,并且在拓扑的变化下可能不是唯一的。我们提出了一种前瞻性的剥皮模型,使用迭代根发现,找到任何变形点的所有规范对应关系。我们通过隐式差分派生分析梯度,从而实现从3D网格与骨骼变换的端到端训练。与最先进的神经隐式表示相比,我们的方法在保持准确性的同时,我们的方法更好地展示了未经造成的姿势。我们展示了我们在多样化和看不见的姿态上挑战(披装)3D人类的具有挑战性的方法。
translated by 谷歌翻译
长期以来,众所周知,在从嘈杂或不完整数据中重建3D形状时,形状先验是有效的。当使用基于深度学习的形状表示时,这通常涉及学习潜在表示,可以以单个全局向量的形式或多个局部媒介。后者可以更灵活,但容易过度拟合。在本文中,我们主张一种与三个网眼相结合的混合方法,该方法在每个顶点处与单独的潜在向量。在训练过程中,潜在向量被限制为具有相同的值,从而避免过度拟合。为了推断,潜在向量是独立更新的,同时施加空间正规化约束。我们表明,这赋予了我们灵活性和概括功能,我们在几个医学图像处理任务上证明了这一点。
translated by 谷歌翻译
有效地表示人体诸如人体之类的铰接物体是计算机视觉和图形中的重要问题。为了有效地模拟变形,现有方法使用多边形网格表示3D对象,并使用皮肤技术变形。本文介绍了神经表达的形状近似(NASA),这是一种替代框架,可以使用以姿势调节的神经指示函数有效地表示明显的可变形物体。使用NASA进行的占用测试是直接的,可以规定网格的复杂性和水紧身问题。我们证明了NASA对3D跟踪应用的有效性,并讨论了其他潜在扩展。
translated by 谷歌翻译
无监督的生成的虚拟人类具有各种外观和动画姿势对于创建3D人体化身和其他AR/VR应用非常重要。现有方法要么仅限于刚性对象建模,要么不生成,因此无法合成高质量的虚拟人类并使它们进行动画化。在这项工作中,我们提出了Avatargen,这是第一种不仅可以具有不同外观的非刚性人类产生的方法,而且还可以完全控制姿势和观点,同时仅需要2D图像进行训练。具体而言,它通过利用粗糙的人体模型作为代理将观察空间扭曲到规范空间下的标准头像,将最近的3D甘斯扩展到了人类的衣服。为了建模非刚性动力学,它引入了一个变形网络,以学习规范空间中的姿势依赖性变形。为了提高生成的人类化身的几何质量,它利用签名距离字段作为几何表示,从而可以从几何学学习上的身体模型中进行更直接的正则化。从这些设计中受益,我们的方法可以生成具有高质量外观和几何形状建模的动画人体化身,从而极大地表现了先前的3D gan。此外,它有能力用于许多应用,例如单视重构造,复活和文本引导的合成。代码和预培训模型将可用。
translated by 谷歌翻译
We introduce Structured 3D Features, a model based on a novel implicit 3D representation that pools pixel-aligned image features onto dense 3D points sampled from a parametric, statistical human mesh surface. The 3D points have associated semantics and can move freely in 3D space. This allows for optimal coverage of the person of interest, beyond just the body shape, which in turn, additionally helps modeling accessories, hair, and loose clothing. Owing to this, we present a complete 3D transformer-based attention framework which, given a single image of a person in an unconstrained pose, generates an animatable 3D reconstruction with albedo and illumination decomposition, as a result of a single end-to-end model, trained semi-supervised, and with no additional postprocessing. We show that our S3F model surpasses the previous state-of-the-art on various tasks, including monocular 3D reconstruction, as well as albedo and shading estimation. Moreover, we show that the proposed methodology allows novel view synthesis, relighting, and re-posing the reconstruction, and can naturally be extended to handle multiple input images (e.g. different views of a person, or the same view, in different poses, in video). Finally, we demonstrate the editing capabilities of our model for 3D virtual try-on applications.
translated by 谷歌翻译