基于点云的大规模地位识别对于许多应用程序,如同时本地化和映射(SLAM)等许多应用是基础的。虽然已经提出了许多模型并通过学习短程局部特征而实现了良好的性能,但往往忽略了远程语境特性。此外,模型大小也已成为其广泛应用的瓶颈。为了克服这些挑战,我们提出了一个超级轻型网络模型,被称为SVT-Net,用于大规模识别。具体地,在高效的3D稀疏卷积(SP-CONV)之上,提出了一种基于原子的稀疏体变压器(ASVT)和基于簇的稀疏体变压器(CSVT),以学习短程局部特征和长期 - 此模型中的上下文功能。由ASVT和CSVT组成,SVT-NET可以在基准数据集中实现最先进的,其精度和速度都具有超光模型尺寸(0.9M)。同时,引入了两种简化的SVT-NET版本,也实现了最先进的,进一步降低了模型尺寸至0.8米和0.4米。
translated by 谷歌翻译
对于许多应用程序,例如同时本地化和映射(SLAM),基于点云的大规模识别是一项重要但具有挑战性的任务。以任务为云检索问题,以前的方法取得了令人愉快的成就。但是,如何处理由旋转问题引起的灾难性崩溃仍然不足。在本文中,为了解决这个问题,我们提出了一个基于点云的新型旋转型大型位置识别网络(RPR-NET)。特别是,为了解决问题,我们建议分三个步骤学习旋转不变的功能。首先,我们设计了三种新型的旋转不变特征(RIF),它们是可以保持旋转不变属性的低级特征。其次,使用这些Rifs,我们设计了一个细心的模块来学习旋转不变的内核。第三,我们将这些内核应用于先前的点云功能,以生成新功能,这是众所周知的SO(3)映射过程。通过这样做,可以学习高级场景特定的旋转不变功能。我们将上述过程称为细心的旋转不变卷积(ARICONV)。为了实现位置识别目标,我们构建了RPR-NET,它将Ariconv作为构建密集网络体系结构的基本单元。然后,可以从RPR-NET中充分提取用于基于检索的位置识别的强大全局描述符。普遍数据​​集的实验结果表明,我们的方法可以在解决旋转问题时显着优于现有的最新位置识别模型的可比结果,并显着优于其他旋转不变的基线模型。
translated by 谷歌翻译
大规模的地方认可是一项基本但具有挑战性的任务,在自主驾驶和机器人技术中起着越来越重要的作用。现有的方法已经达到了可接受的良好性能,但是,其中大多数都集中精力设计精美的全球描述符学习网络结构。长期以来忽略了特征概括和描述后的特征概括和描述符的重要性。在这项工作中,我们提出了一种名为GIDP的新方法,以学习良好的初始化并引起描述符,以供大规模识别。特别是,在GIDP中分别提出了无监督的动量对比度云预处理模块和基于重新的描述符后增强模块。前者旨在在训练位置识别模型之前对Point Cloud编码网络进行良好的初始化,而后来的目标是通过推理时间重新掌握预测的全局描述符。在室内和室外数据集上进行的广泛实验表明,我们的方法可以使用简单和一般的点云编码主干来实现最先进的性能。
translated by 谷歌翻译
变压器一直是自然语言处理(NLP)和计算机视觉(CV)革命的核心。 NLP和CV的显着成功启发了探索变压器在点云处理中的使用。但是,变压器如何应对点云的不规则性和无序性质?变压器对于不同的3D表示(例如,基于点或体素)的合适性如何?各种3D处理任务的变压器有多大的能力?截至目前,仍然没有对这些问题的研究进行系统的调查。我们第一次为3D点云分析提供了越来越受欢迎的变压器的全面概述。我们首先介绍变压器体系结构的理论,并在2D/3D字段中审查其应用程序。然后,我们提出三种不同的分类法(即实现 - 数据表示和基于任务),它们可以从多个角度对当前的基于变压器的方法进行分类。此外,我们介绍了研究3D中自我注意机制的变异和改进的结果。为了证明变压器在点云分析中的优势,我们提供了基于各种变压器的分类,分割和对象检测方法的全面比较。最后,我们建议三个潜在的研究方向,为3D变压器的开发提供福利参考。
translated by 谷歌翻译
Point cloud learning has lately attracted increasing attention due to its wide applications in many areas, such as computer vision, autonomous driving, and robotics. As a dominating technique in AI, deep learning has been successfully used to solve various 2D vision problems. However, deep learning on point clouds is still in its infancy due to the unique challenges faced by the processing of point clouds with deep neural networks. Recently, deep learning on point clouds has become even thriving, with numerous methods being proposed to address different problems in this area. To stimulate future research, this paper presents a comprehensive review of recent progress in deep learning methods for point clouds. It covers three major tasks, including 3D shape classification, 3D object detection and tracking, and 3D point cloud segmentation. It also presents comparative results on several publicly available datasets, together with insightful observations and inspiring future research directions.
translated by 谷歌翻译
基于激光雷达的本地化方法是用于大规模导航任务的基本模块,例如最后一英里交付和自动驾驶,并且本地化鲁棒性高度依赖于观点和3D功能提取。我们以前的工作提供了一个观点不变的描述符来处理观点差异;但是,全局描述符在无监督聚类中的信号噪声比率低,从而降低了可区分的特征提取能力。我们开发了SphereVlad ++,这是这项工作中一种引起注意的观点不变的位置识别方法。 SphereVlad ++在每个唯一区域的球形视角上投射点云,并通过全局3D几何分布捕获本地特征及其依赖关系之间的上下文连接。作为回报,全局描述符中的群集元素以本地和全球几何形式为条件,并支持SphereVlad的原始视点不变属性。在实验中,我们评估了SphereVlad ++在匹兹堡市的公共Kitti360数据集和自我生成的数据集上的本地化性能。实验结果表明,SphereVlad ++在小甚至完全逆转的视点差异下优于所有相对最新的3D位置识别方法,并显示0.69%和15.81%的成功检索率,比第二好的检索率更好。低计算要求和高时间效率也有助于其用于低成本机器人的应用。
translated by 谷歌翻译
我们在本文中重新审视语义场景(SSC),是预测3D场景的语义和占用表示的有用任务。此任务的许多方法始终基于用于保存本地场景结构的体蛋白化场景表示。然而,由于存在可见空体素,当网络更深时,这些方法总是遭受重型计算冗余,从而限制完成质量。为了解决这种困境,我们提出了我们为此任务的新型点体素聚集网络。首先,我们通过去除这些可见的空体素来将Voxized场景传输到点云,并采用深点流,以有效地从场景中捕获语义信息。同时,仅包含两个3D卷积层的轻重体素流保留了体蛋白化场景的局部结构。此外,我们设计一个各向异性体素聚合运算符,将结构细节从体素流融合到点流中,并通过语义标签来增强点流中的上采样过程的语义感知传播模块。我们展示了我们的模型在两个基准上超越了最先进的余量,只有深度图像作为输入。
translated by 谷歌翻译
基于激光雷达的3D单一对象跟踪是机器人技术和自动驾驶中的一个具有挑战性的问题。当前,现有方法通常会遇到长距离对象通常具有非常稀疏或部分倾斜的点云的问题,这使得模型含糊不清。模棱两可的功能将很难找到目标对象,并最终导致不良跟踪结果。为了解决此问题,我们使用功能强大的变压器体系结构,并为基于点云的3D单一对象跟踪任务提出一个点轨转换器(PTT)模块。具体而言,PTT模块通过计算注意力重量来生成微调的注意力特征,该功能指导追踪器的重点关注目标的重要功能,并提高复杂场景中的跟踪能力。为了评估我们的PTT模块,我们将PTT嵌入主要方法中,并构建一个名为PTT-NET的新型3D SOT跟踪器。在PTT-NET中,我们分别将PTT嵌入了投票阶段和提案生成阶段。投票阶段中的PTT模块可以模拟点斑块之间的交互作用,该点贴片学习上下文依赖于上下文。同时,提案生成阶段中的PTT模块可以捕获对象和背景之间的上下文信息。我们在Kitti和Nuscenes数据集上评估了PTT-NET。实验结果证明了PTT模块的有效性和PTT-NET的优越性,PTT-NET的优势超过了基线,在CAR类别中〜10%。同时,我们的方法在稀疏场景中也具有显着的性能提高。通常,变压器和跟踪管道的组合使我们的PTT-NET能够在两个数据集上实现最先进的性能。此外,PTT-NET可以在NVIDIA 1080TI GPU上实时以40fps实时运行。我们的代码是为研究社区开源的,网址为https://github.com/shanjiayao/ptt。
translated by 谷歌翻译
与卷积神经网络相比,最近开发的纯变压器架构已经实现了对点云学习基准的有希望的准确性。然而,现有点云变压器是计算昂贵的,因为它们在构建不规则数据时浪费了大量时间。要解决此缺点,我们呈现稀疏窗口注意(SWA)模块,以收集非空体素的粗粒颗粒特征,不仅绕过昂贵的不规则数据结构和无效的空体素计算,还可以获得线性计算复杂性到体素分辨率。同时,要收集关于全球形状的细粒度特征,我们介绍了相对的注意(RA)模块,更强大的自我关注变体,用于对象的刚性变换。我们配备了SWA和RA,我们构建了我们的神经结构,称为PVT,将两个模块集成到Point云学习的联合框架中。与以前的变压器和关注的模型相比,我们的方法平均达到了分类基准和10x推理加速的最高精度为94.0%。广泛的实验还有效地验证了PVT在部分和语义分割基准上的有效性(分别为86.6%和69.2%Miou)。
translated by 谷歌翻译
我们介绍了PointConvormer,这是一个基于点云的深神经网络体系结构的新颖构建块。受到概括理论的启发,PointConvormer结合了点卷积的思想,其中滤波器权重仅基于相对位置,而变形金刚则利用了基于功能的注意力。在PointConvormer中,附近点之间的特征差异是重量重量卷积权重的指标。因此,我们从点卷积操作中保留了不变,而注意力被用来选择附近的相关点进行卷积。为了验证PointConvormer的有效性,我们在点云上进行了语义分割和场景流估计任务,其中包括扫描仪,Semantickitti,FlyingThings3D和Kitti。我们的结果表明,PointConvormer具有经典的卷积,常规变压器和Voxelized稀疏卷积方法的表现,具有较小,更高效的网络。可视化表明,PointConvormer的性能类似于在平面表面上的卷积,而邻域选择效果在物体边界上更强,表明它具有两全其美。
translated by 谷歌翻译
点云学习界见证了从CNN到变形金刚的模型转移,纯变压器架构在主要学习基准上实现了最高精度。然而,现有的点变压器是计算昂贵的,因为它们需要产生大的注意图,其相对于输入大小具有二次复杂度(空间和时间)。为了解决这种缺点,我们介绍补丁注意(PAT),以便自适应地学习计算注意力地图的更小的基础。通过对这些基础的加权求和,PAT仅捕获全局形状上下文,而且还可以实现输入大小的线性复杂性。此外,我们提出了一种轻量级的多尺度关注(MST)块来构建不同尺度特征的关注,提供具有多尺度特征的模型。我们配备了PAT和MST,我们构建了我们的神经结构,称为PatchFormer,将两个模块集成到Point云学习的联合框架中。广泛的实验表明,我们的网络对一般点云学习任务的可比准确性具有9.2倍的速度高于先前的点变压器。
translated by 谷歌翻译
点云完成任务旨在预测不完整的点云的缺失部分,并通过详细信息生成完整的点云。在本文中,我们提出了一个新颖的点云完成网络,即完成。具体而言,从具有不同分辨率的点云中学到了特征,该分辨率是从不完整输入中采样的,并根据几何结构转换为一系列\ textit {spots}。然后,提出了基于变压器的密集关系增强模块(DRA),以学习\ textit {spots}中的特征,并考虑这些\ textit {spots}之间的相关性。 DRA由点局部注意模块(PLA)和点密集的多尺度注意模块(PDMA)组成,其中PLA通过适应邻居的权重,PDMA Expolo the Local \ textit {spots}捕获本地信息。这些\ textit {spots}之间的全局关系以多尺度的密集连接方式。最后,由\ textit {spots}通过多分辨率点融合模块(MPF)预测完整形状,该模块(mpf)逐渐从\ textit {spots}中逐渐生成完整的点云,并基于这些生成的点进行更新\ textit {spots}云。实验结果表明,由于基于变压器的DRA可以从不完整的输入中学习表达性特征,并且MPF可以完全探索这些功能以预测完整的输入,因此我们的方法在很大程度上优于先进方法。
translated by 谷歌翻译
变压器在自然语言处理中的成功最近引起了计算机视觉领域的关注。由于能够学习长期依赖性,变压器已被用作广泛使用的卷积运算符的替代品。事实证明,这种替代者在许多任务中都取得了成功,其中几种最先进的方法依靠变压器来更好地学习。在计算机视觉中,3D字段还见证了使用变压器来增加3D卷积神经网络和多层感知器网络的增加。尽管许多调查都集中在视力中的变压器上,但由于与2D视觉相比,由于数据表示和处理的差异,3D视觉需要特别注意。在这项工作中,我们介绍了针对不同3D视觉任务的100多种变压器方法的系统和彻底审查,包括分类,细分,检测,完成,姿势估计等。我们在3D Vision中讨论了变形金刚的设计,该设计使其可以使用各种3D表示形式处理数据。对于每个应用程序,我们强调了基于变压器的方法的关键属性和贡献。为了评估这些方法的竞争力,我们将它们的性能与12个3D基准测试的常见非转化方法进行了比较。我们通过讨论3D视觉中变压器的不同开放方向和挑战来结束调查。除了提出的论文外,我们的目标是频繁更新最新的相关论文及其相应的实现:https://github.com/lahoud/3d-vision-transformers。
translated by 谷歌翻译
由于其稀疏性和不规则性,点云处理是一个具有挑战性的任务。现有作品在本地特征聚合器或全局几何架构上引入精致的设计,但很少结合两个优点。我们提出了与高频融合(DSPoint)的双模点云识别,通过同时在体素和点上运行来提取本地全局功能。我们扭转了常规设计对体素和注意点的应用卷积。具体而言,我们通过通道尺寸解开点特征,用于双尺度处理:一个逐个明智的卷积,用于细粒度的几何解析,另一个由Voxel-Wise全球关注远程结构探索。我们设计了一个共同关注的融合模块,用于混合本地 - 全局模态,通过传送高频坐标信息来进行尺度间跨模型交互。广泛采用的ModelNet40,ShapEnet​​和S3DIS上的实验和消融展示了我们的DSPoint的最先进的性能。
translated by 谷歌翻译
我们描述了一种新的方法,该方法是基于与高级隐式语义特征的低级颜色和几何特征的汇总颜色和几何特征的室内识别。它使用了一个2阶段的深度学习框架,其中第一阶段经过了语义分割的辅助任务的训练,第二阶段的第二阶段使用了第一阶段的层中的特征来生成区分描述符以进行位置识别。辅助任务鼓励这些功能在语义上有意义,因此将RGB点云数据中的几何形状和颜色汇总为具有隐式语义信息。我们使用从扫描仪数据集派生的室内识别数据集进行培训和评估,其中一个包括由100个不同房间生成的3,608点云的测试集。与传统的基于功能的方法和四种最先进的深度学习方法进行比较表明,我们的方法显着优于所有五种方法,例如,取得前3名平均召回率为75%,而41%的平均召回率为41%最接近的竞争对手方法。我们的代码可在以下网址找到:https://github.com/yuhangming/semantic-indoor-place-recognition
translated by 谷歌翻译
Raw point clouds data inevitably contains outliers or noise through acquisition from 3D sensors or reconstruction algorithms. In this paper, we present a novel endto-end network for robust point clouds processing, named PointASNL, which can deal with point clouds with noise effectively. The key component in our approach is the adaptive sampling (AS) module. It first re-weights the neighbors around the initial sampled points from farthest point sampling (FPS), and then adaptively adjusts the sampled points beyond the entire point cloud. Our AS module can not only benefit the feature learning of point clouds, but also ease the biased effect of outliers. To further capture the neighbor and long-range dependencies of the sampled point, we proposed a local-nonlocal (L-NL) module inspired by the nonlocal operation. Such L-NL module enables the learning process insensitive to noise. Extensive experiments verify the robustness and superiority of our approach in point clouds processing tasks regardless of synthesis data, indoor data, and outdoor data with or without noise. Specifically, PointASNL achieves state-of-theart robust performance for classification and segmentation tasks on all datasets, and significantly outperforms previous methods on real-world outdoor SemanticKITTI dataset with considerate noise. Our code is released through https: //github.com/yanx27/PointASNL.
translated by 谷歌翻译
最近神经网络的成功使得能够更好地解释3D点云,但是处理大规模的3D场景仍然是一个具有挑战性的问题。大多数电流方法将大型场景划分为小区,并将当地预测组合在一起。然而,该方案不可避免地涉及预处理和后处理的附加阶段,并且由于局部视角下的预测也可能降低最终输出。本文介绍了由新的轻质自我关注层组成的快速点变压器。我们的方法编码连续的3D坐标,基于体素散列的架构提高了计算效率。所提出的方法用3D语义分割和3D检测进行了说明。我们的方法的准确性对基于最佳的体素的方法具有竞争力,我们的网络达到了比最先进的点变压器更快的推理时间速度更快的136倍,具有合理的准确性权衡。
translated by 谷歌翻译
捕获不规则点云的局部和全局特征对于3D对象检测(3OD)至关重要。但是,主流3D探测器,例如,投票机及其变体,要么放弃池操作过程中的大量本地功能,要么忽略整个场景中的许多全球功能。本文探讨了新的模块,以同时学习积极服务3OD的场景点云的局部全球特征。为此,我们通过同时局部全球特征学习(称为3DLG-detector)提出了一个有效的3OD网络。 3DLG检测器有两个关键贡献。首先,它会开发一个动态点交互(DPI)模块,该模块可在合并过程中保留有效的本地特征。此外,DPI是可拆卸的,可以将其合并到现有的3OD网络中以提高其性能。其次,它开发了一个全局上下文聚合模块,以汇总编码器不同层的多尺度特征,以实现场景上下文意识。我们的方法在SUN RGB-D和扫描仪数据集的检测准确性和鲁棒性方面显示了13个竞争对手的进步。源代码将在出版物时提供。
translated by 谷歌翻译
学习地区内部背景和区域间关系是加强点云分析的特征表示的两项有效策略。但是,在现有方法中没有完全强调的统一点云表示的两种策略。为此,我们提出了一种名为点关系感知网络(PRA-NET)的小说框架,其由区域内结构学习(ISL)模块和区域间关系学习(IRL)模块组成。ISL模块可以通过可差的区域分区方案和基于代表的基于点的策略自适应和有效地将本地结构信息动态地集成到点特征中,而IRL模块可自适应和有效地捕获区域间关系。在涵盖形状分类,关键点估计和部分分割的几个3D基准测试中的广泛实验已经验证了PRA-Net的有效性和泛化能力。代码将在https://github.com/xiwuchen/pra-net上获得。
translated by 谷歌翻译
3D点云的卷积经过广泛研究,但在几何深度学习中却远非完美。卷积的传统智慧在3D点之间表现出特征对应关系,这是对差的独特特征学习的内在限制。在本文中,我们提出了自适应图卷积(AGCONV),以供点云分析的广泛应用。 AGCONV根据其动态学习的功能生成自适应核。与使用固定/各向同性核的解决方案相比,AGCONV提高了点云卷积的灵活性,有效,精确地捕获了不同语义部位的点之间的不同关系。与流行的注意力体重方案不同,AGCONV实现了卷积操作内部的适应性,而不是简单地将不同的权重分配给相邻点。广泛的评估清楚地表明,我们的方法优于各种基准数据集中的点云分类和分割的最新方法。同时,AGCONV可以灵活地采用更多的点云分析方法来提高其性能。为了验证其灵活性和有效性,我们探索了基于AGCONV的完成,DeNoing,Upsmpling,注册和圆圈提取的范式,它们与竞争对手相当甚至优越。我们的代码可在https://github.com/hrzhou2/adaptconv-master上找到。
translated by 谷歌翻译