This paper presents ORB-SLAM3, the first system able to perform visual, visual-inertial and multi-map SLAM with monocular, stereo and RGB-D cameras, using pin-hole and fisheye lens models.The first main novelty is a feature-based tightly-integrated visual-inertial SLAM system that fully relies on Maximum-a-Posteriori (MAP) estimation, even during the IMU initialization phase. The result is a system that operates robustly in real time, in small and large, indoor and outdoor environments, and is two to ten times more accurate than previous approaches.The second main novelty is a multiple map system that relies on a new place recognition method with improved recall. Thanks to it, ORB-SLAM3 is able to survive to long periods of poor visual information: when it gets lost, it starts a new map that will be seamlessly merged with previous maps when revisiting mapped areas. Compared with visual odometry systems that only use information from the last few seconds, ORB-SLAM3 is the first system able to reuse in all the algorithm stages all previous information. This allows to include in bundle adjustment co-visible keyframes, that provide high parallax observations boosting accuracy, even if they are widely separated in time or if they come from a previous mapping session.Our experiments show that, in all sensor configurations, ORB-SLAM3 is as robust as the best systems available in the literature, and significantly more accurate. Notably, our stereo-inertial SLAM achieves an average accuracy of 3.5 cm in the EuRoC drone and 9 mm under quick hand-held motions in the room of TUM-VI dataset, a setting representative of AR/VR scenarios. For the benefit of the community we make public the source code.
translated by 谷歌翻译
This paper presents ORB-SLAM, a feature-based monocular SLAM system that operates in real time, in small and large, indoor and outdoor environments. The system is robust to severe motion clutter, allows wide baseline loop closing and relocalization, and includes full automatic initialization. Building on excellent algorithms of recent years, we designed from scratch a novel system that uses the same features for all SLAM tasks: tracking, mapping, relocalization, and loop closing. A survival of the fittest strategy that selects the points and keyframes of the reconstruction leads to excellent robustness and generates a compact and trackable map that only grows if the scene content changes, allowing lifelong operation. We present an exhaustive evaluation in 27 sequences from the most popular datasets. ORB-SLAM achieves unprecedented performance with respect to other state-of-the-art monocular SLAM approaches. For the benefit of the community, we make the source code public.
translated by 谷歌翻译
a) Stereo input: trajectory and sparse reconstruction of an urban environment with multiple loop closures. (b) RGB-D input: keyframes and dense pointcloud of a room scene with one loop closure. The pointcloud is rendered by backprojecting the sensor depth maps from estimated keyframe poses. No fusion is performed.
translated by 谷歌翻译
A monocular visual-inertial system (VINS), consisting of a camera and a low-cost inertial measurement unit (IMU), forms the minimum sensor suite for metric six degreesof-freedom (DOF) state estimation. However, the lack of direct distance measurement poses significant challenges in terms of IMU processing, estimator initialization, extrinsic calibration, and nonlinear optimization. In this work, we present VINS-Mono: a robust and versatile monocular visual-inertial state estimator. Our approach starts with a robust procedure for estimator initialization and failure recovery. A tightly-coupled, nonlinear optimization-based method is used to obtain high accuracy visual-inertial odometry by fusing pre-integrated IMU measurements and feature observations. A loop detection module, in combination with our tightly-coupled formulation, enables relocalization with minimum computation overhead. We additionally perform four degrees-of-freedom pose graph optimization to enforce global consistency. We validate the performance of our system on public datasets and real-world experiments and compare against other state-of-the-art algorithms. We also perform onboard closed-loop autonomous flight on the MAV platform and port the algorithm to an iOS-based demonstration. We highlight that the proposed work is a reliable, complete, and versatile system that is applicable for different applications that require high accuracy localization. We open source our implementations for both PCs 1 and iOS mobile devices 2 .
translated by 谷歌翻译
农业行业不断寻求农业生产中涉及的不同过程的自动化,例如播种,收获和杂草控制。使用移动自主机器人执行这些任务引起了极大的兴趣。耕地面向同时定位和映射(SLAM)系统(移动机器人技术的关键)面临着艰巨的挑战,这是由于视觉上的难度,这是由于高度重复的场景而引起的。近年来,已经开发了几种视觉惯性遗传(VIO)和SLAM系统。事实证明,它们在室内和室外城市环境中具有很高的准确性。但是,在农业领域未正确评估它们。在这项工作中,我们从可耕地上的准确性和处理时间方面评估了最相关的最新VIO系统,以便更好地了解它们在这些环境中的行为。特别是,该评估是在我们的车轮机器人记录的大豆领域记录的传感器数据集中进行的,该田间被公开发行为Rosario数据集。评估表明,环境的高度重复性外观,崎terrain的地形产生的强振动以及由风引起的叶子的运动,暴露了当前最新的VIO和SLAM系统的局限性。我们分析了系统故障并突出观察到的缺点,包括初始化故障,跟踪损失和对IMU饱和的敏感性。最后,我们得出的结论是,即使某些系统(例如Orb-Slam3和S-MSCKF)在其他系统方面表现出良好的结果,但应采取更多改进,以使其在某些申请中的农业领域可靠,例如作物行的土壤耕作和农药喷涂。 。
translated by 谷歌翻译
尽管密集的视觉大满贯方法能够估计环境的密集重建,但它们的跟踪步骤缺乏稳健性,尤其是当优化初始化较差时。稀疏的视觉大满贯系统通过将惯性测量包括在紧密耦合的融合中,达到了高度的准确性和鲁棒性。受这一表演的启发,我们提出了第一个紧密耦合的密集RGB-D惯性大满贯系统。我们的系统在GPU上运行时具有实时功能。它共同优化了相机姿势,速度,IMU偏见和重力方向,同时建立了全球一致,完全密集的基于表面的3D重建环境。通过一系列关于合成和现实世界数据集的实验,我们表明我们密集的视觉惯性大满贯系统对于低纹理和低几何变化的快速运动和时期比仅相关的RGB-D仅相关的SLAM系统更强大。
translated by 谷歌翻译
我们介绍了基于两种称为延迟边缘化的新技术的单眼视觉惯性径流系统和姿势图束调节。 DM-VIO使用动态重量进行光度束调节,可视于可视残留。我们采用边缘化,这是一种流行的策略,以保持更新时间约束,但它不易颠倒,连接变量的线性化点必须固定。为了克服这一点,我们提出了延迟边缘化:这个想法是维持第二个因素图,其中边缘化被延迟。这允许我们稍后再读这种延迟图,在新的和一致的线性化点之前产生更新的边缘化。此外,延迟边缘化使我们能够将IMU信息注入已经边缘化的状态。这是所提出的姿势图束调整的基础,我们用于IMU初始化。与先前的IMU初始化的工作相比,它能够捕获完整的光度不确定性,从而提高规模估计。为了应对最初的不可观察的规模,在IMU初始化完成后,我们将继续优化主系统中的比例和重力方向。我们在EUROC,TUM-VI和4SEASONS数据集中评估我们的系统,该数据集包括飞行无人机,大规模手持设备和汽车场景。由于建议的IMU初始化,我们的系统超过了视觉惯性内径测量仪的最新状态,即使仅使用单个摄像头和IMU的同时表现出立体惯性方法。该代码将在http://vision.in.tum.de/dm-vio发布
translated by 谷歌翻译
我们呈现HYBVIO,一种新的混合方法,用于利用基于优化的SLAM结合基于滤波的视觉惯性内径术(VIO)的混合方法。我们的方法的核心是强大的,独立的VIO,具有改进的IMU偏置建模,异常值抑制,实体性检测和特征轨道选择,可调于在嵌入式硬件上运行。使用松散耦合的SLAM模块实现了长期一致性。在学术基准中,我们的解决方案在所有类别中产生了出色的性能,特别是在实时用例中,我们优于最新的最先进。我们还展示了VIO使用自定义数据集对消费类硬件的车辆跟踪的可行性,并与当前商业诉讼替代品相比,表现出良好的性能。https://github.com/spectacularai/hybvio提供了Hybvio方法的开源实现
translated by 谷歌翻译
在本文中,我们提出了一个与RGB,深度,IMU和结构化平面信息融合的紧密耦合的大满贯系统。传统的基于稀疏点的大满贯系统始终保持大量地图点以建模环境。大量的地图点使我们具有很高的计算复杂性,因此很难在移动设备上部署。另一方面,平面是人造环境中的常见结构,尤其是在室内环境中。我们通常可以使用少量飞机代表大型场景。因此,本文的主要目的是降低基于稀疏点的大满贯的高复杂性。我们构建了一个轻巧的后端地图,该地图由几个平面和地图点组成,以相等或更高的精度实现有效的捆绑捆绑调整(BA)。我们使用统计约束来消除优化中众多平面点的参数,并降低BA的复杂性。我们将同构和点对平面约束的参数和测量分开,并压缩测量部分,以进一步有效地提高BA的速度。我们还将平面信息集成到整个系统中,以实现强大的平面特征提取,数据关联和全球一致的平面重建。最后,我们进行消融研究,并用模拟和真实环境数据中的类似方法比较我们的方法。我们的系统在准确性和效率方面具有明显的优势。即使平面参数参与了优化,我们也可以使用平面结构有效地简化后端图。全局捆绑捆绑调整的速度几乎是基于稀疏点的SLAM算法的2倍。
translated by 谷歌翻译
在本文中,我们提出了一个紧密耦合的视觉惯性对象级多效性动态大满贯系统。即使在极其动态的场景中,它也可以为摄像机姿势,速度,IMU偏见并构建一个密集的3D重建对象级映射图。我们的系统可以通过稳健的传感器和对象跟踪,可以强牢固地跟踪和重建任意对象的几何形状,其语义和运动的几何形状,其语义和运动的几何形状,并通过逐步融合相关的颜色,深度,语义和前景对象概率概率。此外,当对象在视野视野外丢失或移动时,我们的系统可以在重新观察时可靠地恢复其姿势。我们通过定量和定性测试现实世界数据序列来证明我们方法的鲁棒性和准确性。
translated by 谷歌翻译
通过实现复杂场景实现长期漂移相机姿势估计的目标,我们提出了一种全球定位框架,融合了多层的视觉,惯性和全球导航卫星系统(GNSS)测量。不同于以前的松散和紧密耦合的方法,所提出的多层融合允许我们彻底校正视觉测量仪的漂移,并在GNSS降解时保持可靠的定位。特别地,通过融合GNSS的速度,在紧紧地集成的情况下,解决视觉测量测量测量测量率和偏差估计中的尺度漂移和偏差估计的问题的问题,惯性测量单元(IMU)的预集成以及紧密相机测量的情况下 - 耦合的方式。在外层中实现全局定位,其中局部运动进一步与GNSS位置和基于长期时期的过程以松散耦合的方式融合。此外,提出了一种专用的初始化方法,以保证所有状态变量和参数的快速准确估计。我们为室内和室外公共数据集提供了拟议框架的详尽测试。平均本地化误差减少了63%,而初始化精度与最先进的工程相比,促销率为69%。我们已将算法应用于增强现实(AR)导航,人群采购高精度地图更新等大型应用。
translated by 谷歌翻译
同时定位和映射(SLAM)对于自主机器人(例如自动驾驶汽车,自动无人机),3D映射系统和AR/VR应用至关重要。这项工作提出了一个新颖的LIDAR惯性 - 视觉融合框架,称为R $^3 $ LIVE ++,以实现强大而准确的状态估计,同时可以随时重建光线体图。 R $^3 $ LIVE ++由LIDAR惯性探针(LIO)和视觉惯性探测器(VIO)组成,均为实时运行。 LIO子系统利用从激光雷达的测量值重建几何结构(即3D点的位置),而VIO子系统同时从输入图像中同时恢复了几何结构的辐射信息。 r $^3 $ live ++是基于r $^3 $ live开发的,并通过考虑相机光度校准(例如,非线性响应功能和镜头渐滴)和相机的在线估计,进一步提高了本地化和映射的准确性和映射接触时间。我们对公共和私人数据集进行了更广泛的实验,以将我们提出的系统与其他最先进的SLAM系统进行比较。定量和定性结果表明,我们所提出的系统在准确性和鲁棒性方面对其他系统具有显着改善。此外,为了证明我们的工作的可扩展性,{我们基于重建的辐射图开发了多个应用程序,例如高动态范围(HDR)成像,虚拟环境探索和3D视频游戏。}最后,分享我们的发现和我们的发现和为社区做出贡献,我们在GitHub上公开提供代码,硬件设计和数据集:github.com/hku-mars/r3live
translated by 谷歌翻译
Compared to regular cameras, Dynamic Vision Sensors or Event Cameras can output compact visual data based on a change in the intensity in each pixel location asynchronously. In this paper, we study the application of current image-based SLAM techniques to these novel sensors. To this end, the information in adaptively selected event windows is processed to form motion-compensated images. These images are then used to reconstruct the scene and estimate the 6-DOF pose of the camera. We also propose an inertial version of the event-only pipeline to assess its capabilities. We compare the results of different configurations of the proposed algorithm against the ground truth for sequences of two publicly available event datasets. We also compare the results of the proposed event-inertial pipeline with the state-of-the-art and show it can produce comparable or more accurate results provided the map estimate is reliable.
translated by 谷歌翻译
Integration of multiple sensor modalities and deep learning into Simultaneous Localization And Mapping (SLAM) systems are areas of significant interest in current research. Multi-modality is a stepping stone towards achieving robustness in challenging environments and interoperability of heterogeneous multi-robot systems with varying sensor setups. With maplab 2.0, we provide a versatile open-source platform that facilitates developing, testing, and integrating new modules and features into a fully-fledged SLAM system. Through extensive experiments, we show that maplab 2.0's accuracy is comparable to the state-of-the-art on the HILTI 2021 benchmark. Additionally, we showcase the flexibility of our system with three use cases: i) large-scale (approx. 10 km) multi-robot multi-session (23 missions) mapping, ii) integration of non-visual landmarks, and iii) incorporating a semantic object-based loop closure module into the mapping framework. The code is available open-source at https://github.com/ethz-asl/maplab.
translated by 谷歌翻译
我们提出了一个基于深度神经网络深度预测的比例感知直接单眼遗传学的通用框架。与以前的深度信息仅部分利用的方法相反,我们制定了一种新颖的深度预测残差,使我们能够合并多视图深度信息。此外,我们建议使用截短的稳健成本函数,以防止考虑不一致的深度估计。光度法和深度预测测量值集成到紧密耦合的优化中,从而导致尺度感知的单眼系统,该系统不会累积尺度漂移。我们的建议没有针对具体的神经网络的特殊性,能够与绝大多数现有的深度预测解决方案一起工作。我们使用两个公开可用的神经网络在Kitti Odometry数据集上评估该提案的有效性和普遍性,并将其与类似方法进行比较,以及单眼和立体声猛击的最新方法。实验表明,我们的提议在很大程度上要优于经典的单眼大满贯,更精确的5至9倍,击败了类似的方法,并且具有更接近立体系统的精度。
translated by 谷歌翻译
我们提出了一种新颖的方法,可用于快速准确的立体声视觉同时定位和映射(SLAM),独立于特征检测和匹配。通过优化3D点的规模,将单眼直接稀疏的内径术(DSO)扩展到立体声系统,以最小化立体声配置的光度误差,从而与传统立体声匹配相比产生计算有效和鲁棒的方法。我们进一步将其扩展到具有环路闭合的完整SLAM系统,以减少累积的错误。在假设前向相机运动中,我们使用从视觉径管中获得的3D点模拟LIDAR扫描,并适应LIDAR描述符以便放置识别以便于更有效地检测回路封闭件。之后,我们通过最小化潜在环封闭件的光度误差来估计使用直接对准的相对姿势。可选地,通过使用迭代最近的点(ICP)算法来实现通过直接对准的进一步改进。最后,我们优化一个姿势图,以提高全球的猛烈精度。通过避免在我们的SLAM系统中的特征检测或匹配,我们确保高计算效率和鲁棒性。与最先进的方法相比,公共数据集上的彻底实验验证展示了其有效性。
translated by 谷歌翻译
结合同时定位和映射(SLAM)估计和动态场景建模可以高效地在动态环境中获得机器人自主权。机器人路径规划和障碍避免任务依赖于场景中动态对象运动的准确估计。本文介绍了VDO-SLAM,这是一种强大的视觉动态对象感知SLAM系统,用于利用语义信息,使得能够在场景中进行准确的运动估计和跟踪动态刚性物体,而无需任何先前的物体形状或几何模型的知识。所提出的方法识别和跟踪环境中的动态对象和静态结构,并将这些信息集成到统一的SLAM框架中。这导致机器人轨迹的高度准确估计和对象的全部SE(3)运动以及环境的时空地图。该系统能够从对象的SE(3)运动中提取线性速度估计,为复杂的动态环境中的导航提供重要功能。我们展示了所提出的系统对许多真实室内和室外数据集的性能,结果表明了对最先进的算法的一致和实质性的改进。可以使用源代码的开源版本。
translated by 谷歌翻译
In recent years, aerial swarm technology has developed rapidly. In order to accomplish a fully autonomous aerial swarm, a key technology is decentralized and distributed collaborative SLAM (CSLAM) for aerial swarms, which estimates the relative pose and the consistent global trajectories. In this paper, we propose $D^2$SLAM: a decentralized and distributed ($D^2$) collaborative SLAM algorithm. This algorithm has high local accuracy and global consistency, and the distributed architecture allows it to scale up. $D^2$SLAM covers swarm state estimation in two scenarios: near-field state estimation for high real-time accuracy at close range and far-field state estimation for globally consistent trajectories estimation at the long-range between UAVs. Distributed optimization algorithms are adopted as the backend to achieve the $D^2$ goal. $D^2$SLAM is robust to transient loss of communication, network delays, and other factors. Thanks to the flexible architecture, $D^2$SLAM has the potential of applying in various scenarios.
translated by 谷歌翻译
我们提供了一种基于因子图优化的多摄像性视觉惯性内径系统,该系统通过同时使用所有相机估计运动,同时保留固定的整体特征预算。我们专注于在挑战环境中的运动跟踪,例如狭窄的走廊,具有侵略性动作的黑暗空间,突然的照明变化。这些方案导致传统的单眼或立体声测量失败。在理论上,使用额外的相机跟踪运动,但它会导致额外的复杂性和计算负担。为了克服这些挑战,我们介绍了两种新的方法来改善多相机特征跟踪。首先,除了从一体相机移动到另一个相机时,我们连续地跟踪特征的代替跟踪特征。这提高了准确性并实现了更紧凑的因子图表示。其次,我们选择跨摄像机的跟踪功能的固定预算,以降低反向结束优化时间。我们发现,使用较小的信息性功能可以保持相同的跟踪精度。我们所提出的方法使用由IMU和四个摄像机(前立体网和两个侧面)组成的硬件同步装置进行广泛测试,包括:地下矿,大型开放空间,以及带狭窄楼梯和走廊的建筑室内设计。与立体声最新的视觉惯性内径测量方法相比,我们的方法将漂移率,相对姿势误差,高达80%的翻译和旋转39%降低。
translated by 谷歌翻译
本文通过讨论参加了为期三年的SubT竞赛的六支球队的不同大满贯策略和成果,报道了地下大满贯的现状。特别是,本文有四个主要目标。首先,我们审查团队采用的算法,架构和系统;特别重点是以激光雷达以激光雷达为中心的SLAM解决方案(几乎所有竞争中所有团队的首选方法),异质的多机器人操作(包括空中机器人和地面机器人)和现实世界的地下操作(从存在需要处理严格的计算约束的晦涩之处)。我们不会回避讨论不同SubT SLAM系统背后的肮脏细节,这些系统通常会从技术论文中省略。其次,我们通过强调当前的SLAM系统的可能性以及我们认为与一些良好的系统工程有关的范围来讨论该领域的成熟度。第三,我们概述了我们认为是基本的开放问题,这些问题可能需要进一步的研究才能突破。最后,我们提供了在SubT挑战和相关工作期间生产的开源SLAM实现和数据集的列表,并构成了研究人员和从业人员的有用资源。
translated by 谷歌翻译