We propose a novel 3D morphable model for complete human heads based on hybrid neural fields. At the core of our model lies a neural parametric representation which disentangles identity and expressions in disjoint latent spaces. To this end, we capture a person's identity in a canonical space as a signed distance field (SDF), and model facial expressions with a neural deformation field. In addition, our representation achieves high-fidelity local detail by introducing an ensemble of local fields centered around facial anchor points. To facilitate generalization, we train our model on a newly-captured dataset of over 2200 head scans from 124 different identities using a custom high-end 3D scanning setup. Our dataset significantly exceeds comparable existing datasets, both with respect to quality and completeness of geometry, averaging around 3.5M mesh faces per scan. Finally, we demonstrate that our approach outperforms state-of-the-art methods by a significant margin in terms of fitting error and reconstruction quality.
translated by 谷歌翻译
在这项工作中,我们为来自多视图RGB图像的3D面部重建提供了一种新方法。与以前的方法(3DMMS)构建的先前方法不同,我们的方法利用隐式表示来编码丰富的几何特征。我们的整体管道由两个主要组件组成,包括几何网络,它学习可变形的神经签名距离函数(SDF)作为3D面部表示,以及渲染网络,该渲染网络学会呈现神经SDF的面积点以匹配通过自我监督优化输入图像。要处理在测试时间的不同表达式的相同目标的野外稀疏视图输入,我们进一步提出了残余潜代码,以有效地扩展了学习的隐式面部表示的形状空间,以及新颖的视图开关丢失强制执行不同视图之间的一致性。我们在多个基准数据集上的实验结果表明,与最先进的方法相比,我们的方法优于替代基准,实现了优越的面部重建结果。
translated by 谷歌翻译
We present PhoMoH, a neural network methodology to construct generative models of photorealistic 3D geometry and appearance of human heads including hair, beards, clothing and accessories. In contrast to prior work, PhoMoH models the human head using neural fields, thus supporting complex topology. Instead of learning a head model from scratch, we propose to augment an existing expressive head model with new features. Concretely, we learn a highly detailed geometry network layered on top of a mid-resolution head model together with a detailed, local geometry-aware, and disentangled color field. Our proposed architecture allows us to learn photorealistic human head models from relatively little data. The learned generative geometry and appearance networks can be sampled individually and allow the creation of diverse and realistic human heads. Extensive experiments validate our method qualitatively and across different metrics.
translated by 谷歌翻译
我们提出了神经头头像,这是一种新型神经表示,其明确地模拟了可动画的人体化身的表面几何形状和外观,可用于在依赖数字人类的电影或游戏行业中的AR / VR或其他应用中的电话会议。我们的代表可以从单眼RGB肖像视频中学到,该视频具有一系列不同的表达和视图。具体地,我们提出了一种混合表示,其由面部的粗糙形状和表达式和两个前馈网络组成的混合表示,以及预测底层网格的顶点偏移以及视图和表达依赖性纹理。我们证明,该表示能够准确地外推到看不见的姿势和观点,并在提供尖锐的纹理细节的同时产生自然表达。与先前的磁头头像上的作品相比,我们的方法提供了与标准图形管道兼容的完整人体头(包括头发)的分解形状和外观模型。此外,就重建质量和新型观看合成而定量和定性地优于现有技术的当前状态。
translated by 谷歌翻译
4D隐式表示中的最新进展集中在全球控制形状和运动的情况下,低维潜在向量,这很容易缺少表面细节和累积跟踪误差。尽管许多深层的本地表示显示了3D形状建模的有希望的结果,但它们的4D对应物尚不存在。在本文中,我们通过提出一个新颖的局部4D隐性代表来填补这一空白,以动态穿衣人,名为Lord,具有4D人类建模和局部代表的优点,并实现具有详细的表面变形的高保真重建,例如衣服皱纹。特别是,我们的主要见解是鼓励网络学习本地零件级表示的潜在代码,能够解释本地几何形状和时间变形。为了在测试时间进行推断,我们首先估计内部骨架运动在每个时间步中跟踪本地零件,然后根据不同类型的观察到的数据通过自动编码来优化每个部分的潜在代码。广泛的实验表明,该提出的方法具有强大的代表4D人类的能力,并且在实际应用上胜过最先进的方法,包括从稀疏点,非刚性深度融合(质量和定量)进行的4D重建。
translated by 谷歌翻译
传统的变形面模型提供了对表达的细粒度控制,但不能轻易捕获几何和外观细节。神经体积表示方法是光学 - 现实主义,但很难动画,并没有概括到看不见的表达。为了解决这个问题,我们提出了iMavatar(隐式的可变头像),这是一种从单眼视频学习隐含头头像的新方法。灵感来自传统3DMMS提供的细粒度控制机制,我们代表了通过学习的闪打和剥皮领域的表达和与姿势相关的变形。这些属性是姿势独立的,可用于使规范几何形状和纹理字段变成新颖的表达和姿势参数。我们使用射线跟踪和迭代根发现来定位每个像素的规范表面交叉点。关键贡献是我们的新型分析梯度制定,可实现来自视频的imavatars的端到端培训。我们的定量和定性地显示了我们的方法改善了几何形状,并与最先进的方法相比,涵盖了更完整的表达空间。
translated by 谷歌翻译
3D面重建结果的评估通常取决于估计的3D模型和地面真相扫描之间的刚性形状比对。我们观察到,将两个形状与不同的参考点进行排列可以在很大程度上影响评估结果。这给精确诊断和改进3D面部重建方法带来了困难。在本文中,我们提出了一种新的评估方法,并采用了新的基准测试,包括100张全球对齐的面部扫描,具有准确的面部关键点,高质量的区域口罩和拓扑符合的网格。我们的方法执行区域形状比对,并导致计算形状误差期间更准确,双向对应关系。细粒度,区域评估结果为我们提供了有关最先进的3D面部重建方法表现的详细理解。例如,我们对基于单图像的重建方法的实验表明,DECA在鼻子区域表现最好,而Ganfit在脸颊区域的表现更好。此外,使用与我们构造的相同过程以对齐和重新构造几个3D面部数据集的新型和高质量的3DMM基础HIFI3D ++。我们将在https://realy3dface.com上发布真正的HIFI3D ++以及我们的新评估管道。
translated by 谷歌翻译
3D漫画是对人脸的夸张的3D描述。本文的目的是对紧凑的参数空间中的3D漫画的变化进行建模,以便我们可以为处理3D漫画变形提供有用的数据驱动工具包。为了实现目标,我们提出了一个基于MLP的框架,用于构建可变形的表面模型,该模型采用潜在代码并产生3D表面。在框架中,警笛MLP模拟了在固定模板表面上采用3D位置并返回输入位置的3D位移向量的函数。我们通过学习采用潜在代码并产生MLP参数的超网络来创建3D表面的变化。一旦了解到,我们的可变形模型为3D漫画提供了一个不错的编辑空间,支持基于标签的语义编辑和基于尖的基于尖的变形,这两者都产生了高度夸张和自然的3D讽刺形状。我们还展示了可变形模型的其他应用,例如自动3D漫画创建。
translated by 谷歌翻译
人类性能捕获是一种非常重要的计算机视觉问题,在电影制作和虚拟/增强现实中具有许多应用。许多以前的性能捕获方法需要昂贵的多视图设置,或者没有恢复具有帧到帧对应关系的密集时空相干几何。我们提出了一种新颖的深度致密人体性能捕获的深层学习方法。我们的方法是基于多视图监督的弱监督方式培训,完全删除了使用3D地面真理注释的培训数据的需求。网络架构基于两个单独的网络,将任务解散为姿势估计和非刚性表面变形步骤。广泛的定性和定量评估表明,我们的方法在质量和稳健性方面优于现有技术。这项工作是DeepCAP的扩展版本,在那里我们提供更详细的解释,比较和结果以及应用程序。
translated by 谷歌翻译
Figure 1: Frankenstein (silver) and Adam (gold). This paper presents a 3D human model capable of concurrently tracking the large-scale posture of the body along with the smaller details of a persons facial expressions and hand gestures.
translated by 谷歌翻译
近年来,由于其在数字人物,角色产生和动画中的广泛应用,人们对3D人脸建模的兴趣越来越大。现有方法压倒性地强调了对面部的外部形状,质地和皮肤特性建模,而忽略了内部骨骼结构和外观之间的固有相关性。在本文中,我们使用学习的参数面部发电机提出了雕塑家,具有骨骼一致性的3D面部创作,旨在通过混合参数形态表示轻松地创建解剖上正确和视觉上令人信服的面部模型。雕塑家的核心是露西(Lucy),这是与整形外科医生合作的第一个大型形状面部脸部数据集。我们的Lucy数据集以最古老的人类祖先之一的化石命名,其中包含正牙手术前后全人头的高质量计算机断层扫描(CT)扫描,这对于评估手术结果至关重要。露西(Lucy)由144次扫描,分别对72名受试者(31名男性和41名女性)组成,其中每个受试者进行了两次CT扫描,并在恐惧后手术中进行了两次CT扫描。根据我们的Lucy数据集,我们学习了一个新颖的骨骼一致的参数面部发电机雕塑家,它可以创建独特而细微的面部特征,以帮助定义角色,同时保持生理声音。我们的雕塑家通过将3D脸的描绘成形状混合形状,姿势混合形状和面部表达混合形状,共同在统一数据驱动的框架下共同建模头骨,面部几何形状和面部外观。与现有方法相比,雕塑家在面部生成任务中保留了解剖学正确性和视觉现实主义。最后,我们展示了雕塑家在以前看不见的各种花式应用中的鲁棒性和有效性。
translated by 谷歌翻译
我们建议使用点云上的几何感知体系结构,考虑到学习局部结构的数据局部结构,以学习数据的局部结构,以学习数据的局部结构,以了解数据的局部结构,并使用点云上的几何感知体系结构来学习数据的局部结构,以考虑到局部数据结构。估计时间一致的3D变形,而无需在训练时间,通过利用周期一致性来进行密集的对应关系。除了学习密集对应的能力外,GNPM还可以实现潜在空间操作,例如插值和形状/姿势转移。我们在各种衣服的人类数据集上评估了GNPM,并表明它与需要在训练过程中需要密集对应的最新方法相当。
translated by 谷歌翻译
新兴的元应用需要人类手的可靠,准确和逼真的复制品,以便在物理世界中进行复杂的操作。虽然真实的人手代表了骨骼,肌肉,肌腱和皮肤之间最复杂的协调之一,但最先进的技术一致专注于仅建模手的骨架。在本文中,我们提出了Nimble,这是一种新型的参数手模型,其中包括缺少的密钥组件,将3D手模型带入了新的现实主义水平。我们首先在最近的磁共振成像手(MRI手)数据集上注释肌肉,骨骼和皮肤,然后在数据集中的单个姿势和受试者上注册一个体积模板手。敏捷由20个骨头组成,作为三角形网格,7个肌肉群作为四面体网眼和一个皮肤网。通过迭代形状的注册和参数学习,它进一步产生形状的混合形状,姿势混合形状和关节回归器。我们证明将敏捷性应用于建模,渲染和视觉推理任务。通过强制执行内部骨骼和肌肉以符合解剖学和运动学规则,Nimble可以使3D手动画为前所未有的现实主义。为了建模皮肤的外观,我们进一步构建了一个光度法,以获取高质量的纹理和正常地图,以模型皱纹和棕榈印刷。最后,敏捷还通过合成丰富的数据或直接作为推理网络中的可区分层来使基于学习的手姿势和形状估计受益。
translated by 谷歌翻译
在计算机愿景中已经过了很长一段时间的3D表示和人体重建。传统方法主要依赖于参数统计线性模型,将可能的身体的空间限制在线性组合。近来,一些方法才试图利用人体建模的神经隐式表示,同时展示令人印象深刻的结果,它们是通过表示能力的限制或没有物理有意义和可控的。在这项工作中,我们提出了一种用于人体的新型神经隐含表示,其具有完全可分辨:无戒开的形状和姿势潜在空间的优化。与事先工作相反,我们的代表是基于运动模型设计的,这使得可以为姿势动画等任务提供可控制的表示,同时允许为3D配件和姿势跟踪等任务进行整形和姿势。我们的模型可以直接培训和精细调整,直接在具有精心设计的损失的非水密原始数据上。实验展示了SOTA方法的改进的3D重建性能,并显示了我们的方法来形状插值,模型拟合,姿势跟踪和运动重新定位的适用性。
translated by 谷歌翻译
综合照片 - 现实图像和视频是计算机图形的核心,并且是几十年的研究焦点。传统上,使用渲染算法(如光栅化或射线跟踪)生成场景的合成图像,其将几何形状和材料属性的表示为输入。统称,这些输入定义了实际场景和呈现的内容,并且被称为场景表示(其中场景由一个或多个对象组成)。示例场景表示是具有附带纹理的三角形网格(例如,由艺术家创建),点云(例如,来自深度传感器),体积网格(例如,来自CT扫描)或隐式曲面函数(例如,截短的符号距离)字段)。使用可分辨率渲染损耗的观察结果的这种场景表示的重建被称为逆图形或反向渲染。神经渲染密切相关,并将思想与经典计算机图形和机器学习中的思想相结合,以创建用于合成来自真实观察图像的图像的算法。神经渲染是朝向合成照片现实图像和视频内容的目标的跨越。近年来,我们通过数百个出版物显示了这一领域的巨大进展,这些出版物显示了将被动组件注入渲染管道的不同方式。这种最先进的神经渲染进步的报告侧重于将经典渲染原则与学习的3D场景表示结合的方法,通常现在被称为神经场景表示。这些方法的一个关键优势在于它们是通过设计的3D-一致,使诸如新颖的视点合成捕获场景的应用。除了处理静态场景的方法外,我们还涵盖了用于建模非刚性变形对象的神经场景表示...
translated by 谷歌翻译
仅使用单视2D照片的收藏集对3D感知生成对抗网络(GAN)的无监督学习最近取得了很多进展。然而,这些3D gan尚未证明人体,并且现有框架的产生的辐射场不是直接编辑的,从而限制了它们在下游任务中的适用性。我们通过开发一个3D GAN框架来解决这些挑战的解决方案,该框架学会在规范的姿势中生成人体或面部的辐射场,并使用显式变形场将其扭曲成所需的身体姿势或面部表达。使用我们的框架,我们展示了人体的第一个高质量的辐射现场生成结果。此外,我们表明,与未接受明确变形训练的3D GAN相比,在编辑其姿势或面部表情时,我们的变形感知训练程序可显着提高产生的身体或面部的质量。
translated by 谷歌翻译
虚拟网格是在线通信的未来。服装是一个人身份和自我表达的重要组成部分。然而,目前,在培训逼真的布置动画的远程介绍模型的必需分子和准确性中,目前无法使用注册衣服的地面真相数据。在这里,我们提出了一条端到端的管道,用于建造可驱动的服装代表。我们方法的核心是一种多视图图案的布跟踪算法,能够以高精度捕获变形。我们进一步依靠跟踪方法生产的高质量数据来构建服装头像:一件衣服的表达和完全驱动的几何模型。可以使用一组稀疏的视图来对所得模型进行动画,并产生高度逼真的重建,这些重建忠于驾驶信号。我们证明了管道对现实的虚拟电视应用程序的功效,在该应用程序中,从两种视图中重建了衣服,并且用户可以根据自己的意愿进行选择和交换服装设计。此外,当仅通过身体姿势驱动时,我们表现出一个具有挑战性的场景,我们可驾驶的服装Avatar能够生产出比最先进的面包质量明显更高的逼真的布几何形状。
translated by 谷歌翻译
对于场景重建和新型视图综合的数量表示形式的普及最近,人们的普及使重点放在以高视觉质量和实时为实时的体积内容动画上。尽管基于学习功能的隐性变形方法可以产生令人印象深刻的结果,但它们是艺术家和内容创建者的“黑匣子”,但它们需要大量的培训数据才能有意义地概括,并且在培训数据之外不会产生现实的外推。在这项工作中,我们通过引入实时的音量变形方法来解决这些问题,该方法是实时的,易于使用现成的软件编辑,并且可以令人信服地推断出来。为了证明我们方法的多功能性,我们将其应用于两种情况:基于物理的对象变形和触发性,其中使用Blendshapes控制着头像。我们还进行了彻底的实验,表明我们的方法与两种体积方法相比,结合了基于网格变形的隐式变形和方法。
translated by 谷歌翻译
在两个非辅助变形形状之间建立对应关系是视觉计算中最根本的问题之一。当对现实世界中的挑战(例如噪声,异常值,自我结合等)挑战时,现有方法通常会显示出弱的弹性。另一方面,自动描述器在学习几何学上有意义的潜在嵌入方面表现出强大的表现力。但是,它们在\ emph {形状分析}中的使用受到限制。在本文中,我们介绍了一种基于自动码头框架的方法,该方法在固定模板上学习了一个连续形状的变形字段。通过监督点在表面上的变形场,并通过小说\ emph {签名距离正则化}(SDR)正规化点偏面的正规化,我们学习了模板和Shape \ Emph {卷}之间的对齐。经过干净的水密网眼培训,\ emph {没有}任何数据启发,我们证明了在受损的数据和现实世界扫描上表现出令人信服的性能。
translated by 谷歌翻译
本文介绍了一个新的大型多视图数据集,称为Humbi的人体表达式,具有天然衣物。 HUMBI的目标是为了便于建模特异性的外观和五个主要身体信号的几何形状,包括来自各种各样的人的凝视,面部,手,身体和服装。 107同步高清摄像机用于捕获772个跨性别,种族,年龄和风格的独特科目。使用多视图图像流,我们使用3D网格模型重建高保真体表达式,允许表示特定于视图的外观。我们证明HUMBI在学习和重建完整的人体模型方面非常有效,并且与人体表达的现有数据集互补,具有有限的观点和主题,如MPII-Gaze,Multi-Pie,Human 3.6m和Panoptic Studio数据集。基于HUMBI,我们制定了一种展开的姿态引导外观渲染任务的新基准挑战,其旨在大大延长了在3D中建模的不同人类表达式中的光敏性,这是真实的社会远程存在的关键能力。 Humbi公开提供http://humbi-data.net
translated by 谷歌翻译