Point clouds are characterized by irregularity and unstructuredness, which pose challenges in efficient data exploitation and discriminative feature extraction. In this paper, we present an unsupervised deep neural architecture called Flattening-Net to represent irregular 3D point clouds of arbitrary geometry and topology as a completely regular 2D point geometry image (PGI) structure, in which coordinates of spatial points are captured in colors of image pixels. \mr{Intuitively, Flattening-Net implicitly approximates a locally smooth 3D-to-2D surface flattening process while effectively preserving neighborhood consistency.} \mr{As a generic representation modality, PGI inherently encodes the intrinsic property of the underlying manifold structure and facilitates surface-style point feature aggregation.} To demonstrate its potential, we construct a unified learning framework directly operating on PGIs to achieve \mr{diverse types of high-level and low-level} downstream applications driven by specific task networks, including classification, segmentation, reconstruction, and upsampling. Extensive experiments demonstrate that our methods perform favorably against the current state-of-the-art competitors. We will make the code and data publicly available at https://github.com/keeganhk/Flattening-Net.
translated by 谷歌翻译
我们提出了一种神经动力构造(NDR),这是一种无模板的方法,可从单眼RGB-D摄像机中恢复动态场景的高保真几何形状和动作。在NDR中,我们采用神经隐式函数进行表面表示和渲染,使捕获的颜色和深度可以完全利用以共同优化表面和变形。为了表示和限制非刚性变形,我们提出了一种新型的神经可逆变形网络,以便自动满足任意两个帧之间的循环一致性。考虑到动态场景的表面拓扑可能会随着时间的流逝而发生变化,我们采用一种拓扑感知的策略来构建融合框架的拓扑变化对应关系。NDR还以全球优化的方式进一步完善了相机的姿势。公共数据集和我们收集的数据集的实验表明,NDR的表现优于现有的单眼动态重建方法。
translated by 谷歌翻译
非刚性注册以非刚性方式与目标形状保持一致的源形状变形,是计算机视觉中的经典问题。由于数据(噪声,离群值和部分重叠)和高度自由度,因此此类问题可能具有挑战性。现有方法通常采用$ \ ell_ {p} $键入鲁棒标准来测量对齐误差并规范变形的平滑度,并使用近端算法来解决所得的非平滑优化问题。但是,这种算法的缓慢收敛性限制了其广泛的应用。在本文中,我们提出了一种基于全球平稳的稳健标准进行对齐和正则化的稳健非刚性登记的公式,该规范可以有效地处理异常值和部分重叠。使用大型最小化算法解决了该问题,该算法将每次迭代减少到使用封闭形式的解决方案的凸二次问题。我们进一步应用安德森加速度以加快求解器的收敛性,使求解器能够在具有有限的计算能力的设备上有效运行。广泛的实验证明了我们方法在两种形状之间具有异常值和部分重叠的形状之间的非刚性比对的有效性,并进行定量评估表明,就注册准确性和计算速度而言,它的表现优于最先进的方法。源代码可从https://github.com/yaoyx689/amm_nrr获得。
translated by 谷歌翻译
在本文中,我们提出了一个新的基于NERF的参数头模型,该参数头模型集成了神经辐射场到人头的参数表示。它可以实时呈现高保真头图像,并直接控制生成的图像渲染姿势和各种语义属性。与现有相关参数模型不同,我们使用神经辐射字段作为新颖的3D代理而不是传统的3D纹理网格,这使得HeadnerF能够生成高保真图像。然而,原始NERF的计算昂贵的渲染过程阻碍了参数NERF模型的构造。为了解决这个问题,我们采用将2D神经渲染集成到NERF的渲染过程和设计新颖损失条款的策略。结果,可以显着加速头部的渲染速度,并且一帧的渲染时间从5s降至25ms。新颖的设计损失术语还提高了渲染精度,并且人体头部的细级细节,例如牙齿,皱纹和胡须之间的间隙,可以由Headnerf表示和合成。广泛的实验结果和一些应用展示了其有效性。我们将向公众推出代码和培训的模型。
translated by 谷歌翻译
在本文中,我们提出了一种新的点云表示。与传统点云表示不同,其中每个点仅表示3D空间中的位置或局部平面,神经点中的每个点通过神经领域表示局部连续几何形状。因此,神经点可以表达更复杂的细节,因此具有更强的表示能力。具有含有丰富的几何细节的高分辨率表面培训神经点,使得训练模型具有足够的各种形状的表达能力。具体地,我们通过2D参数域和3D本地补丁之间的局部同构来提取点上的深度局部特征并通过局部同构构造神经字段。在决赛中,局部神经领域集成在一起以形成全局表面。实验结果表明,神经点具有强大的代表能力,展示了优异的鲁棒性和泛化能力。通过神经点,我们可以用任意分辨率重新采样点云,并优于最先进的点云上采样方法,通过大边距。
translated by 谷歌翻译
漫画是一种人类面孔的艺术风格,吸引了娱乐业的相当大的关注。到目前为止,存在少数3D漫画生成方法,所有这些都需要一些漫画信息(例如,漫画素描或2D漫画)作为输入。然而,这种输入难以由非专业用户提供。在本文中,我们提出了一个端到端的深度神经网络模型,可直接从正常的2D脸照片产生高质量的3D漫画。我们系统最具挑战性的问题是面部照片的源域(以正常的2D面为特征)与3D漫画的目标域有很大差异(以3D夸大的面形状和纹理为特征)。为了解决这一挑战,我们:(1)建立一个大型数据集5,343个3D漫画网格,并使用它来建立3D漫画形状空间中的PCA模型; (2)从输入面照片重建正常的全3D头,并在3D漫画形状空间中使用其PCA表示来建立输入照片和3D漫画形状之间的对应关系; (3)提出了一种基于以前对讽刺的心理研究的新颖性状损失和新颖的漫画损失。实验包括新型两级用户学习,表明我们的系统可以直接从正常面部照片产生高质量的3D漫画。
translated by 谷歌翻译
我们提出了一种新颖的方法,即在强化学习框架中使用样式转移和对抗性学习的方式学习样式反应表示。在这里,样式是指任务核算的细节,例如图像中背景的颜色,在这种情况下,在具有不同样式的环境中概括学到的策略仍然是一个挑战。我们的方法着眼于学习样式不合时宜的表示,以固有的对抗性风格的发电机产生的不同图像样式训练演员,该样式在演员和发电机之间扮演最小游戏,而无需提供数据扩展的专家知识或其他类别的课程。对抗训练的标签。我们验证我们的方法比Procgen的最先进方法和分散控制套件的基准,并进一步研究从我们的模型中提取的功能,表明该模型更好地捕获不变性,并且不分散注意力,我们的方法可以实现竞争性或更好的性能。通过移动的风格。该代码可在https://github.com/postech-cvlab/style-agnostic-rl上找到。
translated by 谷歌翻译
由于动态和复杂的时空依赖性,交通预测具有挑战性。但是,现有方法仍然受到两个关键局限性。首先,许多方法通常使用静态预定义或自适应的空间图来捕获流量系统中动态的时空依赖性,这限制了灵活性,并且仅捕获了整个时间的共享模式,从而导致了次优性能。此外,大多数方法在每个时间步骤中都单独和独立地考虑地面真理与预测之间的绝对误差,这无法维持整体时间序列的全球属性和统计数据,并导致地面真相和预测之间的趋势差异。为此,在本文中,我们提出了一个动态自适应和对抗图卷积网络(DAAGCN),该网络将图形卷积网络(GCN)与生成的对抗网络(GANS)结合在一起,以进行流量预测。具体而言,DAAGCN利用带栅极模块的通用范式将时间变化的嵌入与节点嵌入集成在一起,以生成动态自适应图,以在每个时间步骤中推断空间 - 周期依赖性。然后,设计了两个歧视因子,以维持预测时间序列的全局属性的一致性,并在序列和图形级别上具有地面真相。在四个基准数据集上进行的广泛实验表明,DAAGCN的表现平均比最新的5.05%,3.80%和5.27%在MAE,RMSE和MAPE方面,同时加快收敛性高达9倍。代码可从https://github.com/juyongjiang/daagcn获得。
translated by 谷歌翻译
Masked image modeling (MIM) performs strongly in pre-training large vision Transformers (ViTs). However, small models that are critical for real-world applications cannot or only marginally benefit from this pre-training approach. In this paper, we explore distillation techniques to transfer the success of large MIM-based pre-trained models to smaller ones. We systematically study different options in the distillation framework, including distilling targets, losses, input, network regularization, sequential distillation, etc, revealing that: 1) Distilling token relations is more effective than CLS token- and feature-based distillation; 2) An intermediate layer of the teacher network as target perform better than that using the last layer when the depth of the student mismatches that of the teacher; 3) Weak regularization is preferred; etc. With these findings, we achieve significant fine-tuning accuracy improvements over the scratch MIM pre-training on ImageNet-1K classification, using all the ViT-Tiny, ViT-Small, and ViT-base models, with +4.2%/+2.4%/+1.4% gains, respectively. Our TinyMIM model of base size achieves 52.2 mIoU in AE20K semantic segmentation, which is +4.1 higher than the MAE baseline. Our TinyMIM model of tiny size achieves 79.6% top-1 accuracy on ImageNet-1K image classification, which sets a new record for small vision models of the same size and computation budget. This strong performance suggests an alternative way for developing small vision Transformer models, that is, by exploring better training methods rather than introducing inductive biases into architectures as in most previous works. Code is available at https://github.com/OliverRensu/TinyMIM.
translated by 谷歌翻译
In this paper, we propose a robust 3D detector, named Cross Modal Transformer (CMT), for end-to-end 3D multi-modal detection. Without explicit view transformation, CMT takes the image and point clouds tokens as inputs and directly outputs accurate 3D bounding boxes. The spatial alignment of multi-modal tokens is performed implicitly, by encoding the 3D points into multi-modal features. The core design of CMT is quite simple while its performance is impressive. CMT obtains 73.0% NDS on nuScenes benchmark. Moreover, CMT has a strong robustness even if the LiDAR is missing. Code will be released at https://github.com/junjie18/CMT.
translated by 谷歌翻译