基于深度学习的视觉位置识别技术近年来将自己作为最先进的技术,并不能很好地概括与训练集在视觉上不同的环境。因此,为了达到最佳性能,有时有必要将网络调整到目标环境中。为此,我们根据同时定位和映射(SLAM)作为监督信号而不需要GPS或手动标记,提出了一个基于强大的姿势图优化的自我监督域校准程序。此外,我们利用该程序来改善在安全关键应用中很重要的位置识别匹配的不确定性估计。我们表明,我们的方法可以改善目标环境与训练集不同的最先进技术的性能,并且我们可以获得不确定性估计。我们认为,这种方法将帮助从业者在现实世界应用中部署健壮的位置识别解决方案。我们的代码公开可用:https://github.com/mistlab/vpr-calibration-and-uncrightity
translated by 谷歌翻译
循环闭合检测是同时定位和映射(SLAM)系统的重要组成部分,这减少了随时间累积的漂移。多年来,已经提出了一些深入的学习方法来解决这项任务,但是与手工制作技术相比,他们的表现一直是SubPar,特别是在处理反向环的同时。在本文中,我们通过同时识别先前访问的位置并估计当前扫描与地图之间的6-DOF相对变换,有效地检测LIDAR点云中的LINAS点云中的环闭环的新颖LCDNET。 LCDNET由共享编码器组成,一个地方识别头提取全局描述符,以及估计两个点云之间的变换的相对姿势头。我们基于不平衡的最佳运输理论介绍一种新颖的相对姿势,我们以可分散的方式实现,以便实现端到端训练。在多个现实世界自主驾驶数据集中的LCDNET广泛评估表明我们的方法优于最先进的环路闭合检测和点云登记技术,特别是在处理反向环的同时。此外,我们将所提出的循环闭合检测方法集成到LIDAR SLAM库中,以提供完整的映射系统,并在看不见的城市中使用不同的传感器设置展示泛化能力。
translated by 谷歌翻译
基于图形的大量系统的关键组成部分是能够检测轨迹中的环闭合以减少从探视法累积的漂移。大多数基于激光雷达的方法仅通过仅使用几何信息来实现此目标,而无视场景的语义。在这项工作中,我们介绍了Padloc,这是一种基于激光雷达的环路闭合检测和注册体系结构,其中包括共享的3D卷积特征提取主链,用于环路闭合检测的全局描述符,以及用于点云匹配和注册的新型变压器头。我们提出了多种方法,用于估计基于多样性指数的点匹配置信度。此外,为了提高前向后的一致性,我们建议使用两个共享匹配和注册头,并通过利用估计的相对转换必须相互倒数来交换其源和目标输入。此外,我们以新颖的损失函数的形式利用综合信息在培训期间,将匹配问题折叠为语义标签的分类任务,并作为实例标签的图形连接分配。我们在多个现实世界数据集上对PADLOC进行了广泛的评估,证明它可以实现最新的性能。我们的工作代码可在http://padloc.cs.uni-freiburg.de上公开获得。
translated by 谷歌翻译
在这项研究中,我们提出了一种新型的视觉定位方法,以根据RGB摄像机的可视数据准确估计机器人在3D激光镜头内的六个自由度(6-DOF)姿势。使用基于先进的激光雷达的同时定位和映射(SLAM)算法,可获得3D地图,能够收集精确的稀疏图。将从相机图像中提取的功能与3D地图的点进行了比较,然后解决了几何优化问题,以实现精确的视觉定位。我们的方法允许使用配备昂贵激光雷达的侦察兵机器人一次 - 用于映射环境,并且仅使用RGB摄像头的多个操作机器人 - 执行任务任务,其本地化精度高于常见的基于相机的解决方案。该方法在Skolkovo科学技术研究所(Skoltech)收集的自定义数据集上进行了测试。在评估本地化准确性的过程中,我们设法达到了厘米级的准确性;中间翻译误差高达1.3厘米。仅使用相机实现的确切定位使使用自动移动机器人可以解决需要高度本地化精度的最复杂的任务。
translated by 谷歌翻译
循环结束是自动移动系统同时本地化和映射(SLAM)的基本组成部分。在视觉大满贯领域,单词袋(弓)在循环封闭方面取得了巨大的成功。循环搜索的弓特征也可以在随后的6-DOF环校正中使用。但是,对于3D激光雷达的猛击,最新方法可能无法实时识别循环,并且通常无法纠正完整的6-DOF回路姿势。为了解决这一限制,我们呈现了一袋新颖的单词,以实时循环在3D LIDAR大满贯中关闭,称为Bow3D。我们方法的新颖性在于,它不仅有效地识别了重新审视的环路,而且还实时纠正了完整的6型循环姿势。 BOW3D根据3D功能link3D构建单词袋,该链接有效,姿势不变,可用于准确的点对点匹配。我们将我们提出的方法嵌入了3D激光射击系统中,以评估循环闭合性能。我们在公共数据集上测试我们的方法,并将其与其他最先进的算法进行比较。在大多数情况下,BOW3D在F1 MAX和扩展精度分数方面表现出更好的性能,并具有出色的实时性能。值得注意的是,BOW3D平均需要50毫秒才能识别和纠正Kitti 00中的循环(包括4K+ 64射线激光扫描),当在使用Intel Core i7 @2.2 GHz处理器的笔记本上执行时。
translated by 谷歌翻译
近年来我们目睹了巨大进展的动机,本文提出了对协作同时定位和映射(C-SLAM)主题的科学文献的调查,也称为多机器人猛击。随着地平线上的自动驾驶车队和工业应用中的多机器人系统的兴起,我们相信合作猛击将很快成为未来机器人应用的基石。在本调查中,我们介绍了C-Slam的基本概念,并呈现了彻底的文献综述。我们还概述了C-Slam在鲁棒性,通信和资源管理方面的主要挑战和限制。我们通过探索该地区目前的趋势和有前途的研究途径得出结论。
translated by 谷歌翻译
近年来,机器人社区已经广泛检查了关于同时定位和映射应用范围内的地点识别任务的方法。这篇文章提出了一种基于外观的循环闭合检测管道,命名为“fild ++”(快速和增量环闭合检测) .First,系统由连续图像馈送,并且通过通过单个卷积神经网络通过两次,通过单个卷积神经网络来提取全局和局部深度特征。灵活,分级导航的小世界图逐步构建表示机器人遍历路径的可视数据库基于计算的全局特征。最后,每个时间步骤抓取查询映像,被设置为在遍历的路线上检索类似的位置。遵循的图像到图像配对,它利用本地特征来评估空间信息。因此,在拟议的文章中,我们向全球和本地特征提取提出了一个网络与我们之前的一个网络工作(FILD),而在生成的深度本地特征上采用了彻底搜索验证过程,避免利用哈希代码。关于11个公共数据集的详尽实验表现出系统的高性能(实现其中八个的最高召回得分)和低执行时间(在新学院平均22.05毫秒,这是与其他国家相比包含52480图像的最大版本) - 最艺术方法。
translated by 谷歌翻译
Integration of multiple sensor modalities and deep learning into Simultaneous Localization And Mapping (SLAM) systems are areas of significant interest in current research. Multi-modality is a stepping stone towards achieving robustness in challenging environments and interoperability of heterogeneous multi-robot systems with varying sensor setups. With maplab 2.0, we provide a versatile open-source platform that facilitates developing, testing, and integrating new modules and features into a fully-fledged SLAM system. Through extensive experiments, we show that maplab 2.0's accuracy is comparable to the state-of-the-art on the HILTI 2021 benchmark. Additionally, we showcase the flexibility of our system with three use cases: i) large-scale (approx. 10 km) multi-robot multi-session (23 missions) mapping, ii) integration of non-visual landmarks, and iii) incorporating a semantic object-based loop closure module into the mapping framework. The code is available open-source at https://github.com/ethz-asl/maplab.
translated by 谷歌翻译
我们提出了人类和几何重要性SLAM(HGI-SLAM),这是一种使用显着和几何特征循环封闭的新方法。循环闭合是SLAM的关键要素,具有许多已建立的方法来解决此问题。但是,使用基于几何或显着的特征,当前方法是狭窄的。我们将他们的成功合并为一个模型,该模型仅优于两种类型的方法。我们的方法利用廉价的单眼相机,不依赖于深度传感器或LIDAR。 HGI-SLAM利用几何和显着特征,将它们处理成描述符,并将其优化为一袋单词算法。通过使用并发线程并将我们的环闭合检测与Orb-Slam2梳理,我们的系统是一个完整的SLAM框架。我们对Kitti和Euroc数据集进行了HGI循环检测和HGI-SLAM的广泛评估。我们还对我们的功能进行定性分析。我们的方法是实时运行的,并且在有机环境中保持准确的方式对巨大的观点变化是可靠的。 HGI-SLAM是一种端到端的大满贯系统,仅需要单眼视觉,并且在性能上与最先进的SLAM方法相当。
translated by 谷歌翻译
位置识别是可以协助同时定位和映射(SLAM)进行循环闭合检测和重新定位以进行长期导航的基本模块。在过去的20美元中,该地点认可社区取得了惊人的进步,这吸引了在计算机视觉和机器人技术等多个领域的广泛研究兴趣和应用。但是,在复杂的现实世界情景中,很少有方法显示出有希望的位置识别性能,在复杂的现实世界中,长期和大规模的外观变化通常会导致故障。此外,在最先进的方法之间缺乏集成框架,可以应对所有挑战,包括外观变化,观点差异,对未知区域的稳健性以及现实世界中的效率申请。在这项工作中,我们调查针对长期本地化并讨论未来方向和机会的最先进方法。首先,我们研究了长期自主权中的位置识别以及在现实环境中面临的主要挑战。然后,我们回顾了最新的作品,以应对各种位置识别挑战的不同传感器方式和当前的策略的认可。最后,我们回顾了现有的数据集以进行长期本地化,并为不同的方法介绍了我们的数据集和评估API。本文可以成为该地点识别界新手的研究人员以及关心长期机器人自主权的研究人员。我们还对机器人技术中的常见问题提供了意见:机器人是否需要准确的本地化来实现长期自治?这项工作以及我们的数据集和评估API的摘要可向机器人社区公开,网址为:https://github.com/metaslam/gprs。
translated by 谷歌翻译
本文通过讨论参加了为期三年的SubT竞赛的六支球队的不同大满贯策略和成果,报道了地下大满贯的现状。特别是,本文有四个主要目标。首先,我们审查团队采用的算法,架构和系统;特别重点是以激光雷达以激光雷达为中心的SLAM解决方案(几乎所有竞争中所有团队的首选方法),异质的多机器人操作(包括空中机器人和地面机器人)和现实世界的地下操作(从存在需要处理严格的计算约束的晦涩之处)。我们不会回避讨论不同SubT SLAM系统背后的肮脏细节,这些系统通常会从技术论文中省略。其次,我们通过强调当前的SLAM系统的可能性以及我们认为与一些良好的系统工程有关的范围来讨论该领域的成熟度。第三,我们概述了我们认为是基本的开放问题,这些问题可能需要进一步的研究才能突破。最后,我们提供了在SubT挑战和相关工作期间生产的开源SLAM实现和数据集的列表,并构成了研究人员和从业人员的有用资源。
translated by 谷歌翻译
本文提出了Kimera-Multi,第一个多机器人系统,(i)是强大的,并且能够识别和拒绝由感知混叠产生的不正确和内部机器人循环闭合,(ii)完全分布,仅依赖于本地(点对点)通信实现分布式本地化和映射,(iii)实时构建环境的全球一致的度量标准三维网状模型,其中网格的面部用语义标签注释。 Kimera-Multi由配备有视觉惯性传感器的机器人团队实现。每个机器人都构建了局部轨迹估计和使用Kimera的本地网格。当通信可用时,机器人基于一种基于新型分布式刻度非凸性算法发起分布式地点识别和鲁棒姿态图优化协议。所提出的协议允许机器人通过利用机器人间循环闭合而鲁棒到异常值来改善其局部轨迹估计。最后,每个机器人使用其改进的轨迹估计来使用网格变形技术来校正本地网格。我们在光逼真模拟,SLAM基准测试数据集中展示了Kimera-Multi,以及使用地机器人收集的靠户外数据集。真实和模拟实验都涉及长轨迹(例如,每个机器人高达800米)。实验表明,在鲁棒性和准确性方面,kimera-multi(i)优于现有技术,(ii)在完全分布的同时实现与集中式大满贯系统相当的估计误差,(iii)在通信带宽方面是显着的(iv)产生精确的公制语义3D网格,并且(v)是模块化的,也可以用于标准3D重建(即,没有语义标签)或轨迹估计(即,不重建3D网格)。
translated by 谷歌翻译
我们介绍了一种简单而有效的方法,可以使用本地3D深度描述符(L3DS)同时定位和映射解决循环闭合检测。 L3DS正在采用深度学习算法从数据从数据中学到的点云提取的斑块的紧凑型表示。通过在通过其估计的相对姿势向循环候选点云登记之后计算对应于相互最近邻接描述符的点之间的度量误差,提出了一种用于循环检测的新颖重叠度量。这种新方法使我们能够在小重叠的情况下精确地检测环并估计六个自由度。我们将基于L3D的循环闭合方法与最近的LIDAR数据的方法进行比较,实现最先进的环路闭合检测精度。此外,我们嵌入了我们在最近的基于边缘的SLAM系统中的循环闭合方法,并对现实世界RGBD-TUM和合成ICL数据集进行了评估。与其原始环路闭合策略相比,我们的方法能够实现更好的本地化准确性。
translated by 谷歌翻译
我们提出了一种新颖的方法,可用于快速准确的立体声视觉同时定位和映射(SLAM),独立于特征检测和匹配。通过优化3D点的规模,将单眼直接稀疏的内径术(DSO)扩展到立体声系统,以最小化立体声配置的光度误差,从而与传统立体声匹配相比产生计算有效和鲁棒的方法。我们进一步将其扩展到具有环路闭合的完整SLAM系统,以减少累积的错误。在假设前向相机运动中,我们使用从视觉径管中获得的3D点模拟LIDAR扫描,并适应LIDAR描述符以便放置识别以便于更有效地检测回路封闭件。之后,我们通过最小化潜在环封闭件的光度误差来估计使用直接对准的相对姿势。可选地,通过使用迭代最近的点(ICP)算法来实现通过直接对准的进一步改进。最后,我们优化一个姿势图,以提高全球的猛烈精度。通过避免在我们的SLAM系统中的特征检测或匹配,我们确保高计算效率和鲁棒性。与最先进的方法相比,公共数据集上的彻底实验验证展示了其有效性。
translated by 谷歌翻译
自主导航的同时本地化和映射(SLAM)框架依赖于强大的数据关联来识别循环封闭以进行后端轨迹优化。对于配备了多层回声器(MBE)的自动水下车辆(AUV),由于海床中可识别的地标的稀缺性,数据关联尤其具有挑战性MBE数据的低分辨率特征。循环封闭检测的深度学习解决方案已显示出来自更结构化环境的数据的出色性能。但是,它们转移到海底领域并不是直接的,并且由于缺乏测深的数据集而阻碍了移植它们的努力。因此,在本文中,我们提出了一种神经网络体系结构,旨在展示将这种技术适应测深数据中对应匹配的潜力。我们从AUV任务中训练我们的框架,并评估其在循环闭合检测任务和粗点云对齐任务上的性能。最后,我们在更传统的方法上展示了其潜力,并释放其实现和所使用的数据集。
translated by 谷歌翻译
使用深网的Visual Place识别(VPR)已达到最先进的性能。但是,他们中的大多数都需要采用地面真相传感器姿势的培训,以获取每个观察的空间邻里的正面和负面样本,以进行监督学习。当不可用的信息不可用时,尽管我们发现其性能次优训练,但可以利用从顺序收集的数据流中的时间社区进行自我监督训练。受嘈杂的标签学习的启发,我们提出了一个名为\ textit {tf-vpr}的新颖的自我监督框架,该框架使用时间社区和可学习的特征邻域来发现未知的空间社区。我们的方法遵循一个迭代训练范式,该范式在以下方面交替:(1)与数据增强的表示学习,(2)正设置扩展以包括当前的特征空间邻居,以及(3)通过几何验证进行正面集合。我们在模拟数据集和真实数据集上进行了全面的实验,将RGB图像或点云作为输入进行。结果表明,我们的方法在召回率,稳健性和标题多样性方面优于我们的基准,这是我们为VPR提出的新型指标。可以在https://ai4ce.github.io/tf-vpr/上找到我们的代码和数据集。
translated by 谷歌翻译
我们提出Automerge,这是一种LIDAR数据处理框架,用于将大量地图段组装到完整的地图中。传统的大规模地图合并方法对于错误的数据关联是脆弱的,并且主要仅限于离线工作。 Automerge利用多观点的融合和自适应环路闭合检测来进行准确的数据关联,并且它使用增量合并来从随机顺序给出的单个轨迹段组装大图,没有初始估计。此外,在组装段后,自动制度可以执行良好的匹配和姿势图片优化,以在全球范围内平滑合并的地图。我们展示了城市规模合并(120公里)和校园规模重复合并(4.5公里x 8)的汽车。该实验表明,自动化(i)在段检索中超过了第二和第三最佳方法的14%和24%的召回,(ii)在120 km大尺度地图组件(III)中实现了可比较的3D映射精度,IT对于暂时的重新审视是强大的。据我们所知,Automerge是第一种映射方法,它可以在无GPS的帮助下合并数百公里的单个细分市场。
translated by 谷歌翻译
a) Stereo input: trajectory and sparse reconstruction of an urban environment with multiple loop closures. (b) RGB-D input: keyframes and dense pointcloud of a room scene with one loop closure. The pointcloud is rendered by backprojecting the sensor depth maps from estimated keyframe poses. No fusion is performed.
translated by 谷歌翻译
点云注册是许多应用程序(例如本地化,映射,跟踪和重建)的基本任务。成功的注册依赖于提取鲁棒和歧视性的几何特征。现有的基于学习的方法需要高计算能力来同时处理大量原始点。尽管这些方法取得了令人信服的结果,但由于高计算成本,它们很难在现实情况下应用。在本文中,我们介绍了一个框架,该框架使用图形注意网络有效地从经济上提取密集的特征,以进行点云匹配和注册(DFGAT)。 DFGAT的检测器负责在大型原始数据集中找到高度可靠的关键点。 DFGAT的描述符将这些关键点与邻居相结合,以提取不变的密度特征,以准备匹配。图形注意力网络使用了丰富点云之间关系的注意机制。最后,我们将其视为最佳运输问题,并使用Sinkhorn算法找到正匹配和负面匹配。我们对KITTI数据集进行了彻底的测试,并评估了该方法的有效性。结果表明,与其他最先进的方法相比,使用有效紧凑的关键点选择和描述可以实现最佳性能匹配指标,并达到99.88%注册的最高成功率。
translated by 谷歌翻译
LiDAR mapping is important yet challenging in self-driving and mobile robotics. To tackle such a global point cloud registration problem, DeepMapping converts the complex map estimation into a self-supervised training of simple deep networks. Despite its broad convergence range on small datasets, DeepMapping still cannot produce satisfactory results on large-scale datasets with thousands of frames. This is due to the lack of loop closures and exact cross-frame point correspondences, and the slow convergence of its global localization network. We propose DeepMapping2 by adding two novel techniques to address these issues: (1) organization of training batch based on map topology from loop closing, and (2) self-supervised local-to-global point consistency loss leveraging pairwise registration. Our experiments and ablation studies on public datasets (KITTI, NCLT, and Nebula) demonstrate the effectiveness of our method. Our code will be released.
translated by 谷歌翻译