当将同时映射和本地化(SLAM)调整到现实世界中的应用程序(例如自动驾驶汽车,无人机和增强现实设备)时,其内存足迹和计算成本是限制性能和应用程序范围的两个主要因素。在基于稀疏特征的SLAM算法中,解决此问题的一种有效方法是通过选择可能对本地和全局捆绑捆绑调整(BA)有用的点来限制地图点大小。这项研究提出了用于大量系统中稀疏地图点的有效图优化。具体而言,我们将最大姿势可见度和最大空间多样性问题作为最小成本最大流量图优化问题。提出的方法是现有SLAM系统的附加步骤,因此可以在常规或基于学习的SLAM系统中使用。通过广泛的实验评估,我们证明了所提出的方法以大约1/3的MAP点和1/2的计算实现了更准确的相机姿势。
translated by 谷歌翻译
a) Stereo input: trajectory and sparse reconstruction of an urban environment with multiple loop closures. (b) RGB-D input: keyframes and dense pointcloud of a room scene with one loop closure. The pointcloud is rendered by backprojecting the sensor depth maps from estimated keyframe poses. No fusion is performed.
translated by 谷歌翻译
This paper presents ORB-SLAM, a feature-based monocular SLAM system that operates in real time, in small and large, indoor and outdoor environments. The system is robust to severe motion clutter, allows wide baseline loop closing and relocalization, and includes full automatic initialization. Building on excellent algorithms of recent years, we designed from scratch a novel system that uses the same features for all SLAM tasks: tracking, mapping, relocalization, and loop closing. A survival of the fittest strategy that selects the points and keyframes of the reconstruction leads to excellent robustness and generates a compact and trackable map that only grows if the scene content changes, allowing lifelong operation. We present an exhaustive evaluation in 27 sequences from the most popular datasets. ORB-SLAM achieves unprecedented performance with respect to other state-of-the-art monocular SLAM approaches. For the benefit of the community, we make the source code public.
translated by 谷歌翻译
在本文中,我们开发了一个健壮,有效的视觉大满贯系统,该系统利用了低阈值,基线线和闭环钥匙帧功能的空间抑制。使用ORB-SLAM2,我们的方法包括立体声匹配,框架跟踪,本地捆绑包调整以及线路和点全局捆绑捆绑调整。特别是,我们根据基线贡献了重新注射。融合系统中的线路会消耗巨大的时间,我们减少了从分布点到利用特征点的空间抑制的时间。此外,低阈值关键点在处理低纹理方面可能更有效。为了克服跟踪钥匙帧的冗余问题,提出了有效且可靠的闭环跟踪钥匙框架。所提出的SLAM在Kitti和Euroc数据集中进行了广泛的测试,表明所提出的系统在各种情况下都优于最新方法。
translated by 谷歌翻译
由于其对环境变化的鲁棒性,视觉猛感的间接方法是受欢迎的。 ORB-SLAM2 \ CITE {ORBSLM2}是该域中的基准方法,但是,除非选择帧作为关键帧,否则它会消耗从未被重用的描述符。轻量级和高效,因为它跟踪相邻帧之间的关键点而不计算描述符。为此,基于稀疏光流提出了一种两个级粗到微小描述符独立的Keypoint匹配方法。在第一阶段,我们通过简单但有效的运动模型预测初始关键点对应,然后通过基于金字塔的稀疏光流跟踪鲁棒地建立了对应关系。在第二阶段,我们利用运动平滑度和末端几何形状的约束来改进对应关系。特别是,我们的方法仅计算关键帧的描述符。我们在\ texit {tum}和\ texit {icl-nuim} RGB-D数据集上测试Fastorb-Slam,并将其准确性和效率与九种现有的RGB-D SLAM方法进行比较。定性和定量结果表明,我们的方法实现了最先进的准确性,并且大约是ORB-SLAM2的两倍。
translated by 谷歌翻译
农业行业不断寻求农业生产中涉及的不同过程的自动化,例如播种,收获和杂草控制。使用移动自主机器人执行这些任务引起了极大的兴趣。耕地面向同时定位和映射(SLAM)系统(移动机器人技术的关键)面临着艰巨的挑战,这是由于视觉上的难度,这是由于高度重复的场景而引起的。近年来,已经开发了几种视觉惯性遗传(VIO)和SLAM系统。事实证明,它们在室内和室外城市环境中具有很高的准确性。但是,在农业领域未正确评估它们。在这项工作中,我们从可耕地上的准确性和处理时间方面评估了最相关的最新VIO系统,以便更好地了解它们在这些环境中的行为。特别是,该评估是在我们的车轮机器人记录的大豆领域记录的传感器数据集中进行的,该田间被公开发行为Rosario数据集。评估表明,环境的高度重复性外观,崎terrain的地形产生的强振动以及由风引起的叶子的运动,暴露了当前最新的VIO和SLAM系统的局限性。我们分析了系统故障并突出观察到的缺点,包括初始化故障,跟踪损失和对IMU饱和的敏感性。最后,我们得出的结论是,即使某些系统(例如Orb-Slam3和S-MSCKF)在其他系统方面表现出良好的结果,但应采取更多改进,以使其在某些申请中的农业领域可靠,例如作物行的土壤耕作和农药喷涂。 。
translated by 谷歌翻译
Integration of multiple sensor modalities and deep learning into Simultaneous Localization And Mapping (SLAM) systems are areas of significant interest in current research. Multi-modality is a stepping stone towards achieving robustness in challenging environments and interoperability of heterogeneous multi-robot systems with varying sensor setups. With maplab 2.0, we provide a versatile open-source platform that facilitates developing, testing, and integrating new modules and features into a fully-fledged SLAM system. Through extensive experiments, we show that maplab 2.0's accuracy is comparable to the state-of-the-art on the HILTI 2021 benchmark. Additionally, we showcase the flexibility of our system with three use cases: i) large-scale (approx. 10 km) multi-robot multi-session (23 missions) mapping, ii) integration of non-visual landmarks, and iii) incorporating a semantic object-based loop closure module into the mapping framework. The code is available open-source at https://github.com/ethz-asl/maplab.
translated by 谷歌翻译
This paper presents ORB-SLAM3, the first system able to perform visual, visual-inertial and multi-map SLAM with monocular, stereo and RGB-D cameras, using pin-hole and fisheye lens models.The first main novelty is a feature-based tightly-integrated visual-inertial SLAM system that fully relies on Maximum-a-Posteriori (MAP) estimation, even during the IMU initialization phase. The result is a system that operates robustly in real time, in small and large, indoor and outdoor environments, and is two to ten times more accurate than previous approaches.The second main novelty is a multiple map system that relies on a new place recognition method with improved recall. Thanks to it, ORB-SLAM3 is able to survive to long periods of poor visual information: when it gets lost, it starts a new map that will be seamlessly merged with previous maps when revisiting mapped areas. Compared with visual odometry systems that only use information from the last few seconds, ORB-SLAM3 is the first system able to reuse in all the algorithm stages all previous information. This allows to include in bundle adjustment co-visible keyframes, that provide high parallax observations boosting accuracy, even if they are widely separated in time or if they come from a previous mapping session.Our experiments show that, in all sensor configurations, ORB-SLAM3 is as robust as the best systems available in the literature, and significantly more accurate. Notably, our stereo-inertial SLAM achieves an average accuracy of 3.5 cm in the EuRoC drone and 9 mm under quick hand-held motions in the room of TUM-VI dataset, a setting representative of AR/VR scenarios. For the benefit of the community we make public the source code.
translated by 谷歌翻译
在本文中,我们考虑了视觉同时定位和映射(SLAM)的实际应用中的问题。随着技术在广泛范围中的普及和应用,SLAM系统的可实用性已成为一个在准确性和鲁棒性之后,例如,如何保持系统的稳定性并实现低文本和低文本和中的准确姿势估计动态环境以及如何在真实场景中改善系统的普遍性和实时性能。动态对象在高度动态的环境中的影响。我们还提出了一种新型的全局灰色相似性(GGS)算法,以实现合理的钥匙扣选择和有效的环闭合检测(LCD)。受益于GGS,PLD-SLAM可以在大多数真实场景中实现实时准确的姿势估计,而无需预先训练和加载巨大的功能词典模型。为了验证拟议系统的性能,我们将其与公共数据集Kitti,Euroc MAV和我们提供的室内立体声数据集的现有最新方法(SOTA)方法进行了比较。实验表明,实验表明PLD-SLAM在大多数情况下确保稳定性和准确性,具有更好的实时性能。此外,通过分析GGS的实验结果,我们可以发现它在关键帧选择和LCD中具有出色的性能。
translated by 谷歌翻译
结合同时定位和映射(SLAM)估计和动态场景建模可以高效地在动态环境中获得机器人自主权。机器人路径规划和障碍避免任务依赖于场景中动态对象运动的准确估计。本文介绍了VDO-SLAM,这是一种强大的视觉动态对象感知SLAM系统,用于利用语义信息,使得能够在场景中进行准确的运动估计和跟踪动态刚性物体,而无需任何先前的物体形状或几何模型的知识。所提出的方法识别和跟踪环境中的动态对象和静态结构,并将这些信息集成到统一的SLAM框架中。这导致机器人轨迹的高度准确估计和对象的全部SE(3)运动以及环境的时空地图。该系统能够从对象的SE(3)运动中提取线性速度估计,为复杂的动态环境中的导航提供重要功能。我们展示了所提出的系统对许多真实室内和室外数据集的性能,结果表明了对最先进的算法的一致和实质性的改进。可以使用源代码的开源版本。
translated by 谷歌翻译
动态对象感知的SLAM(DOS)利用对象级信息以在动态环境中启用强大的运动估计。现有方法主要集中于识别和排除优化的动态对象。在本文中,我们表明,基于功能的视觉量大系统也可以通过利用两个观察结果来受益于动态铰接式对象的存在:(1)随着时间的推移,铰接对象的每个刚性部分的3D结构保持一致; (2)同一刚性零件上的点遵循相同的运动。特别是,我们提出了Airdos,这是一种动态的对象感知系统,该系统将刚度和运动限制引入模型铰接对象。通过共同优化相机姿势,对象运动和对象3D结构,我们可以纠正摄像头姿势估计,防止跟踪损失,并为动态对象和静态场景生成4D时空图。实验表明,我们的算法改善了在挑战拥挤的城市环境中的视觉大满贯算法的鲁棒性。据我们所知,Airdos是第一个动态对象感知的大满贯系统,该系统表明可以通过合并动态铰接式对象来改善相机姿势估计。
translated by 谷歌翻译
本文介绍了一种用于水下车辆机械手系统(UVMS)的新型视野映射方法,具有特定强调自然海底环境中的鲁棒映射。水下场景映射的先前方法通常会离线处理数据,而实时运行的现有水下SLAM方法通常会集中在本地化上而不是映射。我们的方法使用GPU加速SIFT功能在图形优化框架中构建一个特征映射。地图刻度由车辆安装的立体声相机的特征约束,我们通过将机械手系统的动态定位能力从手腕安装的Fisheye摄像机融合到地图中,以将其延伸到车辆安装摄像机的有限视点之外。我们的混合SLAM方法是在Costa rican Continental Shelf级别的自然深海环境中采用UVMS收集的挑战性图像序列,我们还在浅礁调查数据集中评估立体声的立体声。这些数据集的结果证明了我们的系统的高准确性,适合于在不同的自然海底环境中运营。
translated by 谷歌翻译
A monocular visual-inertial system (VINS), consisting of a camera and a low-cost inertial measurement unit (IMU), forms the minimum sensor suite for metric six degreesof-freedom (DOF) state estimation. However, the lack of direct distance measurement poses significant challenges in terms of IMU processing, estimator initialization, extrinsic calibration, and nonlinear optimization. In this work, we present VINS-Mono: a robust and versatile monocular visual-inertial state estimator. Our approach starts with a robust procedure for estimator initialization and failure recovery. A tightly-coupled, nonlinear optimization-based method is used to obtain high accuracy visual-inertial odometry by fusing pre-integrated IMU measurements and feature observations. A loop detection module, in combination with our tightly-coupled formulation, enables relocalization with minimum computation overhead. We additionally perform four degrees-of-freedom pose graph optimization to enforce global consistency. We validate the performance of our system on public datasets and real-world experiments and compare against other state-of-the-art algorithms. We also perform onboard closed-loop autonomous flight on the MAV platform and port the algorithm to an iOS-based demonstration. We highlight that the proposed work is a reliable, complete, and versatile system that is applicable for different applications that require high accuracy localization. We open source our implementations for both PCs 1 and iOS mobile devices 2 .
translated by 谷歌翻译
在本文中,我们提出了一个与RGB,深度,IMU和结构化平面信息融合的紧密耦合的大满贯系统。传统的基于稀疏点的大满贯系统始终保持大量地图点以建模环境。大量的地图点使我们具有很高的计算复杂性,因此很难在移动设备上部署。另一方面,平面是人造环境中的常见结构,尤其是在室内环境中。我们通常可以使用少量飞机代表大型场景。因此,本文的主要目的是降低基于稀疏点的大满贯的高复杂性。我们构建了一个轻巧的后端地图,该地图由几个平面和地图点组成,以相等或更高的精度实现有效的捆绑捆绑调整(BA)。我们使用统计约束来消除优化中众多平面点的参数,并降低BA的复杂性。我们将同构和点对平面约束的参数和测量分开,并压缩测量部分,以进一步有效地提高BA的速度。我们还将平面信息集成到整个系统中,以实现强大的平面特征提取,数据关联和全球一致的平面重建。最后,我们进行消融研究,并用模拟和真实环境数据中的类似方法比较我们的方法。我们的系统在准确性和效率方面具有明显的优势。即使平面参数参与了优化,我们也可以使用平面结构有效地简化后端图。全局捆绑捆绑调整的速度几乎是基于稀疏点的SLAM算法的2倍。
translated by 谷歌翻译
本文提出了一种用于同时定位和映射(SLAM)系统的基于分层基于分段的优化方法。首先,我们提出了一种可靠的轨迹分割方法,可用于提高后端优化的效率。然后我们首次提出缓冲机制来提高分割的稳健性。在优化期间,我们使用全局信息来优化具有大错误的帧,而插值而不是优化,以更新估计估计的帧以根据每个帧的错误进行分级地分配计算量。基准测试的比较实验表明,我们的方法大大提高了优化效率,几乎没有准确性,并且通过大边距优于现有的高效优化方法。
translated by 谷歌翻译
同时定位和映射(SLAM)对于自主机器人(例如自动驾驶汽车,自动无人机),3D映射系统和AR/VR应用至关重要。这项工作提出了一个新颖的LIDAR惯性 - 视觉融合框架,称为R $^3 $ LIVE ++,以实现强大而准确的状态估计,同时可以随时重建光线体图。 R $^3 $ LIVE ++由LIDAR惯性探针(LIO)和视觉惯性探测器(VIO)组成,均为实时运行。 LIO子系统利用从激光雷达的测量值重建几何结构(即3D点的位置),而VIO子系统同时从输入图像中同时恢复了几何结构的辐射信息。 r $^3 $ live ++是基于r $^3 $ live开发的,并通过考虑相机光度校准(例如,非线性响应功能和镜头渐滴)和相机的在线估计,进一步提高了本地化和映射的准确性和映射接触时间。我们对公共和私人数据集进行了更广泛的实验,以将我们提出的系统与其他最先进的SLAM系统进行比较。定量和定性结果表明,我们所提出的系统在准确性和鲁棒性方面对其他系统具有显着改善。此外,为了证明我们的工作的可扩展性,{我们基于重建的辐射图开发了多个应用程序,例如高动态范围(HDR)成像,虚拟环境探索和3D视频游戏。}最后,分享我们的发现和我们的发现和为社区做出贡献,我们在GitHub上公开提供代码,硬件设计和数据集:github.com/hku-mars/r3live
translated by 谷歌翻译
在这项研究中,我们提出了一种新型的视觉定位方法,以根据RGB摄像机的可视数据准确估计机器人在3D激光镜头内的六个自由度(6-DOF)姿势。使用基于先进的激光雷达的同时定位和映射(SLAM)算法,可获得3D地图,能够收集精确的稀疏图。将从相机图像中提取的功能与3D地图的点进行了比较,然后解决了几何优化问题,以实现精确的视觉定位。我们的方法允许使用配备昂贵激光雷达的侦察兵机器人一次 - 用于映射环境,并且仅使用RGB摄像头的多个操作机器人 - 执行任务任务,其本地化精度高于常见的基于相机的解决方案。该方法在Skolkovo科学技术研究所(Skoltech)收集的自定义数据集上进行了测试。在评估本地化准确性的过程中,我们设法达到了厘米级的准确性;中间翻译误差高达1.3厘米。仅使用相机实现的确切定位使使用自动移动机器人可以解决需要高度本地化精度的最复杂的任务。
translated by 谷歌翻译
在不同情况下,已经探索了相对旋转和翻译估计任务的最小解决方案,通常依赖于所谓的共同可见度图。但是,如何在没有重叠的两个框架之间建立直接旋转关系仍然是一个公开主题,如果解决了,它可以大大提高视觉尾声的准确性。在本文中,提出了一种新的最小解决方案,以通过利用新的图形结构来求解两个图像之间没有重叠区域的相对旋转估计,我们将其称为扩展性图(E-Graph)。与共同可见度图不同,高级标志(包括消失方向和平面正常)存储在我们的电子图纸中,这些图形在几何上可扩展。基于电子图表,旋转估计问题变得更简单,更优雅,因为它可以处理纯粹的旋转运动,并且需要更少的假设,例如曼哈顿/亚特兰大世界,平面/垂直运动。最后,我们将旋转估计策略嵌入完整的相机跟踪和映射系统中,该系统获得了6-DOF相机姿势和密集的3D网格模型。对公共基准测试的广泛实验表明,所提出的方法实现了最新的跟踪性能。
translated by 谷歌翻译
本文提出了Kimera-Multi,第一个多机器人系统,(i)是强大的,并且能够识别和拒绝由感知混叠产生的不正确和内部机器人循环闭合,(ii)完全分布,仅依赖于本地(点对点)通信实现分布式本地化和映射,(iii)实时构建环境的全球一致的度量标准三维网状模型,其中网格的面部用语义标签注释。 Kimera-Multi由配备有视觉惯性传感器的机器人团队实现。每个机器人都构建了局部轨迹估计和使用Kimera的本地网格。当通信可用时,机器人基于一种基于新型分布式刻度非凸性算法发起分布式地点识别和鲁棒姿态图优化协议。所提出的协议允许机器人通过利用机器人间循环闭合而鲁棒到异常值来改善其局部轨迹估计。最后,每个机器人使用其改进的轨迹估计来使用网格变形技术来校正本地网格。我们在光逼真模拟,SLAM基准测试数据集中展示了Kimera-Multi,以及使用地机器人收集的靠户外数据集。真实和模拟实验都涉及长轨迹(例如,每个机器人高达800米)。实验表明,在鲁棒性和准确性方面,kimera-multi(i)优于现有技术,(ii)在完全分布的同时实现与集中式大满贯系统相当的估计误差,(iii)在通信带宽方面是显着的(iv)产生精确的公制语义3D网格,并且(v)是模块化的,也可以用于标准3D重建(即,没有语义标签)或轨迹估计(即,不重建3D网格)。
translated by 谷歌翻译
重建准确且一致的大规模激光点云图对机器人应用至关重要。现有的解决方案姿势图优化虽然是及时的,但并未直接优化映射一致性。最近提出了LIDAR捆绑调整(BA)来解决此问题;但是,它在大规模地图上太耗时了。为了减轻此问题,本文介绍了适合大规模地图的全球一致和有效的映射方法。我们提出的工作包括自下而上的分层BA和自上而下的姿势图优化,结合了这两种方法的优势。通过层次设计,我们解决了比原始BA小得多的Hessian矩阵大小的多个BA问题。借助姿势图优化,我们可以平稳有效地更新LiDAR姿势。我们提出的方法的有效性和鲁棒性已在多个空间和及时的大规模公共旋转雷达数据集上得到验证,即Kitti,Mulran和Newer College,以及在结构化和非结构化场景下进行自我收集的固态LIDAR数据集。通过适当的设置,我们证明我们的工作可以生成全球一致的地图,约有序列时间的12%。
translated by 谷歌翻译