在本文中,我们将3D点云的古典表示作为线性形状模型。我们的主要洞察力是利用深度学习,代表一种形状的集合,作为低维线性形状模型的仿射变换。每个线性模型的特征在于形状原型,低维形状基础和两个神经网络。网络以输入点云作为输入,并在线性基础中预测形状的坐标和最能近似输入的仿射变换。使用单一的重建损耗来学习线性模型和神经网络的结束。我们方法的主要优点是,与近期学习基于特征的复杂形状表示的许多深度方法相比,我们的模型是显式的,并且在3D空间中发生每个操作。结果,我们的线性形状模型可以很容易地可视化和注释,并且可以在视觉上了解故障情况。虽然我们的主要目标是引入紧凑且可解释的形状收集表示,但我们表明它导致最新的最先进结果对几次射击分割。
translated by 谷歌翻译
我们为3D点云提出了一种自我监督的胶囊架构。我们通过置换等级的注意力计算对象的胶囊分解,并通过用对随机旋转对象的对进行自我监督处理。我们的主要思想是将注意力掩码汇总为语义关键点,并使用这些来监督满足胶囊不变性/设备的分解。这不仅能够培训语义一致的分解,而且还允许我们学习一个能够以对客观的推理的规范化操作。培训我们的神经网络,我们既不需要分类标签也没有手动对齐训练数据集。然而,通过以自我监督方式学习以对象形式的表示,我们的方法在3D点云重建,规范化和无监督的分类上表现出最先进的。
translated by 谷歌翻译
Figure 1. Given input as either a 2D image or a 3D point cloud (a), we automatically generate a corresponding 3D mesh (b) and its atlas parameterization (c). We can use the recovered mesh and atlas to apply texture to the output shape (d) as well as 3D print the results (e).
translated by 谷歌翻译
最近对隐含形状表示的兴趣日益增长。与明确的陈述相反,他们没有解决局限性,他们很容易处理各种各样的表面拓扑。为了了解这些隐式表示,电流方法依赖于一定程度的形状监督(例如,内部/外部信息或距离形状知识),或者至少需要密集点云(以近似距离 - 到 - 到 - 形状)。相比之下,我们介绍{\方法},一种用于学习形状表示的自我监督方法,从可能极其稀疏的点云。就像在水牛的针问题一样,我们在点云上“掉落”(样本)针头,认为,静统计地靠近表面,针端点位于表面的相对侧。不需要形状知识,点云可以高稀疏,例如,作为车辆获取的Lidar点云。以前的自我监督形状表示方法未能在这种数据上产生良好的结果。我们获得定量结果与现有的形状重建数据集上现有的监督方法标准,并在Kitti等硬自动驾驶数据集中显示有前途的定性结果。
translated by 谷歌翻译
Point cloud is an important type of geometric data structure. Due to its irregular format, most researchers transform such data to regular 3D voxel grids or collections of images. This, however, renders data unnecessarily voluminous and causes issues. In this paper, we design a novel type of neural network that directly consumes point clouds, which well respects the permutation invariance of points in the input. Our network, named PointNet, provides a unified architecture for applications ranging from object classification, part segmentation, to scene semantic parsing. Though simple, PointNet is highly efficient and effective. Empirically, it shows strong performance on par or even better than state of the art. Theoretically, we provide analysis towards understanding of what the network has learnt and why the network is robust with respect to input perturbation and corruption.
translated by 谷歌翻译
单视图重建的方法通常依赖于观点注释,剪影,缺乏背景,同一实例的多个视图,模板形状或对称性。我们通过明确利用不同对象实例的图像之间的一致性来避免所有此类监督和假设。结果,我们的方法可以从描述相同对象类别的大量未标记图像中学习。我们的主要贡献是利用跨境一致性的两种方法:(i)渐进式调理,一种培训策略,以逐步将模型从类别中逐步专业为课程学习方式进行实例; (ii)邻居重建,具有相似形状或纹理的实例之间的损失。对于我们方法的成功也至关重要的是:我们的结构化自动编码体系结构将图像分解为显式形状,纹理,姿势和背景;差异渲染的适应性公式;以及一个新的优化方案在3D和姿势学习之间交替。我们将我们的方法(独角兽)在多样化的合成造型数据集上进行比较,这是需要多种视图作为监督的方法的经典基准 - 以及标准的实数基准(Pascal3d+ Car,Cub,Cub,Cub,Cub),大多数方法都需要已知的模板和Silhouette注释。我们还展示了对更具挑战性的现实收藏集(Compcars,LSUN)的适用性,在该收藏中,剪影不可用,图像没有在物体周围裁剪。
translated by 谷歌翻译
我们提出了一种从一系列时间演化点云序列中对时间一致的表面序列的无监督重建的方法。它在帧之间产生了密集和语义有意义的对应关系。我们将重建的表面代表由神经网络计算的Atlases,这使我们能够在帧之间建立对应关系。使这些对应关系的关键是语义上有意义的是为了保证在相应点计算的度量张量和尽可能相似。我们设计了一种优化策略,使我们的方法能够强大地对噪声和全局动作,而无需先验的对应关系或预先对准步骤。结果,我们的方法在几个具有挑战性的数据集中占据了最先进的。该代码可在https://github.com/bednarikjan/temporally_coherent_surface_reconstruction附近获得。
translated by 谷歌翻译
作为一种流行的几何表示,点云在3D视觉中引起了很多关注,导致自动驾驶和机器人中的许多应用。在点云上学习一个重要的尚未解决的问题是,如果使用不同的过程或使用不同的传感器捕获,则相同对象的点云可以具有显着的几何变化。这些不一致地诱导域间隙,使得在一个域上培训的神经网络可能无法概括他人。减少域间隙的典型技术是执行逆势训练,以便特征空间中的点云可以对齐。然而,对抗性训练易于落入退化的局部最小值,导致负适应性收益。在这里,我们提出了一种简单而有效的方法,可以通过采用学习几何感知含义的自我监督任务来提出对点云的无监督域适应的方法,这在一次拍摄中扮演两个关键角色。首先,通过对下游任务的隐式表示保留点云中的几何信息。更重要的是,可以在隐式空间中有效地学习域特定变体。我们还提出了一种自适应策略,以计算由于在实践中缺乏形状模型而计算任意点云的无符号距离场。当结合任务丢失时,所提出的优先表现出最先进的无监督域适应方法,依赖于对抗域对齐和更复杂的自我监督任务。我们的方法在PointDA-10和Graspnet数据集上进行评估。代码和培训的型号将公开可用。
translated by 谷歌翻译
最近归一化流量(NFS)在建模3D点云上已经证明了最先进的性能,同时允许在推理时间以任意分辨率进行采样。然而,这些基于流的模型仍然需要长期训练时间和大型模型来代表复杂的几何形状。这项工作通过将NFS的混合物应用于点云来增强它们的代表性。我们展示在更普遍的框架中,每个组件都学会专门以完全无监督的方式专门化对象的特定子区域。通过将每个混合组件与相对小的NF实例化,我们通过更好的细节生成点云,而与基于单流量的模型相比,使用较少的参数,并且大大减少推理运行时。我们进一步证明通过添加数据增强,各个混合组件可以学习以语义有意义的方式专注。基于ShapEnet​​ DataSet评估NFS对生成,自动编码和单视重建的混合物。
translated by 谷歌翻译
我们呈现FURTIT,这是一种简单的3D形状分割网络的高效学习方法。FURTIT基于自我监督的任务,可以将3D形状的表面分解成几何基元。可以很容易地应用于用于3D形状分割的现有网络架构,并提高了几张拍摄设置中的性能,因为我们在广泛使用的ShapEnet和Partnet基准中展示。FISHIT在这种环境中优于现有的现有技术,表明对基元的分解是在学习对语义部分预测的陈述之前的有用。我们提出了许多实验,改变了几何基元和下游任务的选择,以证明该方法的有效性。
translated by 谷歌翻译
虽然对2D图像的零射击学习(ZSL)进行了许多研究,但其在3D数据中的应用仍然是最近且稀缺的,只有几种方法限于分类。我们在3D数据上介绍了ZSL和广义ZSL(GZSL)的第一代生成方法,可以处理分类,并且是第一次语义分割。我们表明它达到或胜过了INTEMNET40对归纳ZSL和归纳GZSL的ModelNet40分类的最新状态。对于语义分割,我们创建了三个基准,用于评估此新ZSL任务,使用S3DIS,Scannet和Semantickitti进行评估。我们的实验表明,我们的方法优于强大的基线,我们另外为此任务提出。
translated by 谷歌翻译
The objective of this paper is to learn dense 3D shape correspondence for topology-varying generic objects in an unsupervised manner. Conventional implicit functions estimate the occupancy of a 3D point given a shape latent code. Instead, our novel implicit function produces a probabilistic embedding to represent each 3D point in a part embedding space. Assuming the corresponding points are similar in the embedding space, we implement dense correspondence through an inverse function mapping from the part embedding vector to a corresponded 3D point. Both functions are jointly learned with several effective and uncertainty-aware loss functions to realize our assumption, together with the encoder generating the shape latent code. During inference, if a user selects an arbitrary point on the source shape, our algorithm can automatically generate a confidence score indicating whether there is a correspondence on the target shape, as well as the corresponding semantic point if there is one. Such a mechanism inherently benefits man-made objects with different part constitutions. The effectiveness of our approach is demonstrated through unsupervised 3D semantic correspondence and shape segmentation.
translated by 谷歌翻译
Shape completion, the problem of estimating the complete geometry of objects from partial observations, lies at the core of many vision and robotics applications. In this work, we propose Point Completion Network (PCN), a novel learning-based approach for shape completion. Unlike existing shape completion methods, PCN directly operates on raw point clouds without any structural assumption (e.g. symmetry) or annotation (e.g. semantic class) about the underlying shape. It features a decoder design that enables the generation of fine-grained completions while maintaining a small number of parameters. Our experiments show that PCN produces dense, complete point clouds with realistic structures in the missing regions on inputs with various levels of incompleteness and noise, including cars from LiDAR scans in the KITTI dataset. Code, data and trained models are available at https://wentaoyuan.github.io/pcn.
translated by 谷歌翻译
能够直接在原始点云上学习有效的语义表示已成为3D理解中的一个核心主题。尽管进步迅速,但最新的编码器仍限制了典型的点云,并且在遇到几何变形扭曲时的性能弱于必要的性能。为了克服这一挑战,我们提出了Point-Stree,这是一种通用点云编码器,对基于放松的K-D树的转换非常可靠。我们方法的关键是使用主组件分析(PCA)在K-d树中设计了分区规则。我们将放松的K-D树的结构用作我们的计算图,并将特征作为边框描述符建模,并将其与点式最大最大操作合并。除了这种新颖的体系结构设计外,我们还通过引入预先对准进一步提高了鲁棒性 - 一种简单但有效的基于PCA的标准化方案。我们的PointTree编码器与预先对齐的结合始终优于大边距的最先进方法,用于从对象分类到广泛基础的数据集的各种转换版本的语义分割的应用程序。代码和预训练模型可在https://github.com/immortalco/pointtree上找到。
translated by 谷歌翻译
很少有类别的课堂学习(FSCIL)旨在使用一些示例逐步微调模型(在基础课上培训),而不忘记先前的培训。最近的工作主要解决了2D图像。但是,由于相机技术的发展,3D点云数据比以往任何时候都更可用,这需要考虑3D数据的FSCIL。本文介绍了3D域中的FSCIL。除了灾难性忘记过去的知识和过度贴合数据的众所周知的问题外,3D FSCIL还可以带来更新的挑战。例如,基类可能在现实情况下包含许多合成实例。相比之下,新型类​​别只有少数几个实际扫描的样本(来自RGBD传感器)以增量步骤获得。由于数据从合成到真实的变化,FSCIL会承受其他挑战,以后的增量步骤降低了性能。我们尝试使用微莎普(正交基矢量)来解决此问题,并使用预定义的一组规则来描述任何3D对象。它支持逐步训练,几乎没有示例将合成与真实数据变化最小化。我们使用流行的合成数据集(ModelNet和Shapenet)和3D实范围的数据集(ScanoBjectNN和CO3D)为3D FSCIL提供新的测试协议。通过比较最先进的方法,我们确定了3D域中方法的有效性。
translated by 谷歌翻译
我们提出了一种新的方法,可以在点云对之间进行无监督的形状对应学习。我们首次尝试适应经典的局部线性嵌入算法(LLE)(最初是为非线性维度降低)的形状对应关系的。关键思想是通过首先获得低维点云的高维邻域保护嵌入,然后使用局部线性转换对源和目标嵌入对齐,从而找到形状之间的密集对应。我们证明,使用新的LLE启发的点云重建目标学习嵌入会产生准确的形状对应关系。更具体地说,该方法包括一个端到端的可学习框架,该框架是提取高维邻域保护的嵌入,估算嵌入空间中的局部线性变换,以及通过基于差异测量的构建构建的概率密度函数的对准形状,并重建形状。目标形状。我们的方法强制将形状的嵌入在对应中,以放置在相同的通用/规范嵌入空间中,最终有助于正规化学习过程,并导致形状嵌入之间的简单最近的邻居接近以找到可靠的对应关系。全面的实验表明,新方法对涵盖人类和非人类形状的标准形状信号基准数据集进行了明显的改进。
translated by 谷歌翻译
Three-dimensional geometric data offer an excellent domain for studying representation learning and generative modeling. In this paper, we look at geometric data represented as point clouds. We introduce a deep AutoEncoder (AE) network with state-of-the-art reconstruction quality and generalization ability. The learned representations outperform existing methods on 3D recognition tasks and enable shape editing via simple algebraic manipulations, such as semantic part editing, shape analogies and shape interpolation, as well as shape completion. We perform a thorough study of different generative models including GANs operating on the raw point clouds, significantly improved GANs trained in the fixed latent space of our AEs, and Gaussian Mixture Models (GMMs). To quantitatively evaluate generative models we introduce measures of sample fidelity and diversity based on matchings between sets of point clouds. Interestingly, our evaluation of generalization, fidelity and diversity reveals that GMMs trained in the latent space of our AEs yield the best results overall.
translated by 谷歌翻译
基于简单的扩散层对空间通信非常有效的洞察力,我们对3D表面进行深度学习的新的通用方法。由此产生的网络是自动稳健的,以改变表面的分辨率和样品 - 一种对实际应用至关重要的基本属性。我们的网络可以在各种几何表示上离散化,例如三角网格或点云,甚至可以在一个表示上培训然后应用于另一个表示。我们优化扩散的空间支持,作为连续网络参数,从纯粹的本地到完全全球范围,从而消除手动选择邻域大小的负担。该方法中唯一的其他成分是在每个点处独立地施加的多层的Perceptron,以及用于支持方向滤波器的空间梯度特征。由此产生的网络简单,坚固,高效。这里,我们主要专注于三角网格表面,并且展示了各种任务的最先进的结果,包括表面分类,分割和非刚性对应。
translated by 谷歌翻译
3D点云的卷积经过广泛研究,但在几何深度学习中却远非完美。卷积的传统智慧在3D点之间表现出特征对应关系,这是对差的独特特征学习的内在限制。在本文中,我们提出了自适应图卷积(AGCONV),以供点云分析的广泛应用。 AGCONV根据其动态学习的功能生成自适应核。与使用固定/各向同性核的解决方案相比,AGCONV提高了点云卷积的灵活性,有效,精确地捕获了不同语义部位的点之间的不同关系。与流行的注意力体重方案不同,AGCONV实现了卷积操作内部的适应性,而不是简单地将不同的权重分配给相邻点。广泛的评估清楚地表明,我们的方法优于各种基准数据集中的点云分类和分割的最新方法。同时,AGCONV可以灵活地采用更多的点云分析方法来提高其性能。为了验证其灵活性和有效性,我们探索了基于AGCONV的完成,DeNoing,Upsmpling,注册和圆圈提取的范式,它们与竞争对手相当甚至优越。我们的代码可在https://github.com/hrzhou2/adaptconv-master上找到。
translated by 谷歌翻译