We introduce PRISM, a method for real-time filtering in a probabilistic generative model of agent motion and visual perception. Previous approaches either lack uncertainty estimates for the map and agent state, do not run in real-time, do not have a dense scene representation or do not model agent dynamics. Our solution reconciles all of these aspects. We start from a predefined state-space model which combines differentiable rendering and 6-DoF dynamics. Probabilistic inference in this model amounts to simultaneous localisation and mapping (SLAM) and is intractable. We use a series of approximations to Bayesian inference to arrive at probabilistic map and state estimates. We take advantage of well-established methods and closed-form updates, preserving accuracy and enabling real-time capability. The proposed solution runs at 10Hz real-time and is similarly accurate to state-of-the-art SLAM in small to medium-sized indoor environments, with high-speed UAV and handheld camera agents (Blackbird, EuRoC and TUM-RGBD).
translated by 谷歌翻译
Figure 1: Example output from our system, generated in real-time with a handheld Kinect depth camera and no other sensing infrastructure. Normal maps (colour) and Phong-shaded renderings (greyscale) from our dense reconstruction system are shown. On the left for comparison is an example of the live, incomplete, and noisy data from the Kinect sensor (used as input to our system).
translated by 谷歌翻译
尽管常规机器人系统中的每个不同任务都需要专用的场景表示形式,但本文表明,统一表示形式可以直接用于多个关键任务。我们提出了用于映射,进程和计划(LOG-GPIS-MOP)的log-gaussian过程隐式表面:基于统一表示形式的表面重建,本地化和导航的概率框架。我们的框架将对数转换应用于高斯过程隐式表面(GPIS)公式,以恢复全局表示,该表示可以准确地捕获具有梯度的欧几里得距离场,同时又是隐式表面。通过直接估计距离字段及其通过LOG-GPIS推断的梯度,提出的增量进程技术计算出传入帧的最佳比对,并在全球范围内融合以生成MAP。同时,基于优化的计划者使用相同的LOG-GPIS表面表示计算安全的无碰撞路径。我们根据最先进的方法验证了2D和3D和3D和基准测试的模拟和真实数据集的拟议框架。我们的实验表明,LOG-GPIS-MOP在顺序的音程,表面映射和避免障碍物中产生竞争结果。
translated by 谷歌翻译
神经辐射场(NERF)最近被成为自然,复杂3D场景的代表的强大范例。 NERFS表示神经网络中的连续体积密度和RGB值,并通过射线跟踪从看不见的相机观点生成照片逼真图像。我们提出了一种算法,用于通过仅使用用于本地化的板载RGB相机表示为NERF的3D环境导航机器人。我们假设现场的NERF已经预先训练了离线,机器人的目标是通过NERF中的未占用空间导航到目标姿势。我们介绍了一种轨迹优化算法,其避免了基于NERF中的高密度区域的碰撞,其基于差分平整度的离散时间版本,其可用于约束机器人的完整姿势和控制输入。我们还介绍了基于优化的过滤方法,以估计单位的RGB相机中的NERF中机器人的6dof姿势和速度。我们将轨迹策划器与在线重新循环中的姿势过滤器相结合,以提供基于视觉的机器人导航管道。我们使用丛林健身房环境,教堂内部和巨石阵线导航的四轮车机器人,使用RGB相机展示仿真结果。我们还展示了通过教会导航的全向地面机器人,要求它重新定位以缩小差距。这项工作的视频可以在https://mikh3x4.github.io/nerf-navigation/找到。
translated by 谷歌翻译
In this work, we present a dense tracking and mapping system named Vox-Fusion, which seamlessly fuses neural implicit representations with traditional volumetric fusion methods. Our approach is inspired by the recently developed implicit mapping and positioning system and further extends the idea so that it can be freely applied to practical scenarios. Specifically, we leverage a voxel-based neural implicit surface representation to encode and optimize the scene inside each voxel. Furthermore, we adopt an octree-based structure to divide the scene and support dynamic expansion, enabling our system to track and map arbitrary scenes without knowing the environment like in previous works. Moreover, we proposed a high-performance multi-process framework to speed up the method, thus supporting some applications that require real-time performance. The evaluation results show that our methods can achieve better accuracy and completeness than previous methods. We also show that our Vox-Fusion can be used in augmented reality and virtual reality applications. Our source code is publicly available at https://github.com/zju3dv/Vox-Fusion.
translated by 谷歌翻译
我们呈现梯度-SDF,这是三维几何形象的新颖表示,这些表达结合了暗示和显式表示的优势。通过在符号距离字段以及其梯度向量字段中存储每个体素以及其梯度矢量字段,我们通过最初配制的显式表面的方法增强隐式表示的能力。作为具体示例,我们示出了(1)梯度-SDF允许我们使用像哈希映射等有效存储方案的深度图像执行直接SDF跟踪,并且(2)梯度-SDF表示使我们能够执行光度束调节直接在Voxel表示中(不转换为点云或网格),自然地是几何和相机的完全隐含的优化,易于几何上采样。实验结果证实,这导致重建明显更敏锐。由于仍然遵守整体SDF体素结构,所提出的梯度-SDF同样适用于(GPU)并行化作为相关方法。
translated by 谷歌翻译
通常,非刚性登记的问题是匹配在两个不同点拍摄的动态对象的两个不同扫描。这些扫描可以进行刚性动作和非刚性变形。由于模型的新部分可能进入视图,而其他部件在两个扫描之间堵塞,则重叠区域是两个扫描的子集。在最常规的设置中,没有给出先前的模板形状,并且没有可用的标记或显式特征点对应关系。因此,这种情况是局部匹配问题,其考虑了随后的扫描在具有大量重叠区域的情况下进行的扫描经历的假设[28]。本文在环境中寻址的问题是同时在环境中映射变形对象和本地化摄像机。
translated by 谷歌翻译
主动同时定位和映射(SLAM)是规划和控制机器人运动以构建周围环境中最准确,最完整的模型的问题。自从三十多年前出现了积极感知的第一项基础工作以来,该领域在不同科学社区中受到了越来越多的关注。这带来了许多不同的方法和表述,并回顾了当前趋势,对于新的和经验丰富的研究人员来说都是非常有价值的。在这项工作中,我们在主动大满贯中调查了最先进的工作,并深入研究了仍然需要注意的公开挑战以满足现代应用程序的需求。为了实现现实世界的部署。在提供了历史观点之后,我们提出了一个统一的问题制定并审查经典解决方案方案,该方案将问题分解为三个阶段,以识别,选择和执行潜在的导航措施。然后,我们分析替代方法,包括基于深入强化学习的信念空间规划和现代技术,以及审查有关多机器人协调的相关工作。该手稿以讨论新的研究方向的讨论,解决可再现的研究,主动的空间感知和实际应用,以及其他主题。
translated by 谷歌翻译
综合照片 - 现实图像和视频是计算机图形的核心,并且是几十年的研究焦点。传统上,使用渲染算法(如光栅化或射线跟踪)生成场景的合成图像,其将几何形状和材料属性的表示为输入。统称,这些输入定义了实际场景和呈现的内容,并且被称为场景表示(其中场景由一个或多个对象组成)。示例场景表示是具有附带纹理的三角形网格(例如,由艺术家创建),点云(例如,来自深度传感器),体积网格(例如,来自CT扫描)或隐式曲面函数(例如,截短的符号距离)字段)。使用可分辨率渲染损耗的观察结果的这种场景表示的重建被称为逆图形或反向渲染。神经渲染密切相关,并将思想与经典计算机图形和机器学习中的思想相结合,以创建用于合成来自真实观察图像的图像的算法。神经渲染是朝向合成照片现实图像和视频内容的目标的跨越。近年来,我们通过数百个出版物显示了这一领域的巨大进展,这些出版物显示了将被动组件注入渲染管道的不同方式。这种最先进的神经渲染进步的报告侧重于将经典渲染原则与学习的3D场景表示结合的方法,通常现在被称为神经场景表示。这些方法的一个关键优势在于它们是通过设计的3D-一致,使诸如新颖的视点合成捕获场景的应用。除了处理静态场景的方法外,我们还涵盖了用于建模非刚性变形对象的神经场景表示...
translated by 谷歌翻译
The field of autonomous mobile robots has undergone dramatic advancements over the past decades. Despite achieving important milestones, several challenges are yet to be addressed. Aggregating the achievements of the robotic community as survey papers is vital to keep the track of current state-of-the-art and the challenges that must be tackled in the future. This paper tries to provide a comprehensive review of autonomous mobile robots covering topics such as sensor types, mobile robot platforms, simulation tools, path planning and following, sensor fusion methods, obstacle avoidance, and SLAM. The urge to present a survey paper is twofold. First, autonomous navigation field evolves fast so writing survey papers regularly is crucial to keep the research community well-aware of the current status of this field. Second, deep learning methods have revolutionized many fields including autonomous navigation. Therefore, it is necessary to give an appropriate treatment of the role of deep learning in autonomous navigation as well which is covered in this paper. Future works and research gaps will also be discussed.
translated by 谷歌翻译
本文提出了一种新颖的方法,用于在具有复杂拓扑结构的地下领域的搜索和救援行动中自动合作。作为CTU-Cras-Norlab团队的一部分,拟议的系统在DARPA SubT决赛的虚拟轨道中排名第二。与专门为虚拟轨道开发的获奖解决方案相反,该建议的解决方案也被证明是在现实世界竞争极为严峻和狭窄的环境中飞行的机上实体无人机的强大系统。提出的方法可以使无缝模拟转移的无人机团队完全自主和分散的部署,并证明了其优于不同环境可飞行空间的移动UGV团队的优势。该论文的主要贡献存在于映射和导航管道中。映射方法采用新颖的地图表示形式 - 用于有效的风险意识长距离计划,面向覆盖范围和压缩的拓扑范围的LTVMAP领域,以允许在低频道通信下进行多机器人合作。这些表示形式与新的方法一起在导航中使用,以在一般的3D环境中可见性受限的知情搜索,而对环境结构没有任何假设,同时将深度探索与传感器覆盖的剥削保持平衡。所提出的解决方案还包括一条视觉感知管道,用于在没有专用GPU的情况下在5 Hz处进行四个RGB流中感兴趣的对象的板上检测和定位。除了参与DARPA SubT外,在定性和定量评估的各种环境中,在不同的环境中进行了广泛的实验验证,UAV系统的性能得到了支持。
translated by 谷歌翻译
我们提出了GO-SURF,这是一种直接特征网格优化方法,可从RGB-D序列进行准确和快速的表面重建。我们用学习的分层特征素网格对基础场景进行建模,该网络封装了多级几何和外观本地信息。特征向量被直接优化,使得三线性插值后,由两个浅MLP解码为签名的距离和辐射度值,并通过表面体积渲染渲染,合成和观察到的RGB/DEPTH值之间的差异最小化。我们的监督信号-RGB,深度和近似SDF可以直接从输入图像中获得,而无需融合或后处理。我们制定了一种新型的SDF梯度正则化项,该项鼓励表面平滑度和孔填充,同时保持高频细节。 GO-SURF可以优化$ 1 $ - $ 2 $ K框架的序列,价格为$ 15 $ - $ 45 $分钟,$ \ times60 $的速度超过了NeuralRGB-D,这是基于MLP表示的最相关的方法,同时保持PAR性能在PAR上的性能标准基准。项目页面:https://jingwenwang95.github.io/go_surf/
translated by 谷歌翻译
自主场景的曝光和探索,尤其是在本地化或沟通有限的区域,对于在未知场景中寻找目标有用,仍然是计算机导航中的一个具有挑战性的问题。在这项工作中,我们提出了一种用于实时环境探索的新方法,其唯一的要求是一个视觉上相似的数据集,用于预训练,场景中足够的照明以及用于环境感应的机上前瞻性RGB摄像机。与现有方法相反,我们的方法只需要一个外观(图像)才能做出一个良好的战术决定,因此在非成长,恒定的时间内起作用。两个方向的预测以像素为特征,称为goto和lookat像素,包括我们方法的核心。这些像素通过以下方式编码建议的飞行指令:goto像素定义了代理应以一个距离单位移动的方向,而Lookat像素定义了相机应在下一步中指向的方向。这些飞行的指导像素经过优化,以揭示当前未开发的区域的最多数量。我们的方法提出了一种新型的基于深度学习的导航方法,能够解决此问题并在更复杂的设置中证明其能力,即计算能力有限。此外,我们提出了一种生成面向导航数据集的方法,从而可以使用RGB和深度图像对我们的方法有效培训。在模拟器中进行的测试,评估了稀疏像素的推断过程的协调,以及旨在揭示区域并降低目标距离的2D和3D测试飞行取得了令人鼓舞的结果。与最先进的算法的比较表明,我们的方法能够表现出色,在测量每个相机姿势的新体素,最小距离目标距离,所见表面素的百分比和计算时间指标。
translated by 谷歌翻译
在这项工作中,我们研究了在不确定性下的在线决策问题,我们将其制定为在信仰空间的规划中。在高维状态(例如,整个轨迹)上维护信仰(即,整个轨迹)不仅被证明可以显着提高准确性,而且还允许在主动SLAM和信息收集的任务所需的情况下规划信息理论目标。尽管如此,根据这种“平滑”范式的规划持有高计算复杂性,这使得在线解决方案具有挑战性。因此,我们建议以下想法:在规划之前,在初始信念上执行独立状态可变重新排序过程,并“推进”所有预测的环路关闭变量。由于初始可变顺序确定将受到传入更新影响的它们的哪个子集,因此这种重新排序允许我们最小化受影响变量的总数,并在规划期间降低候选评估的计算复杂性。我们称之为Pivot:预测增量变量订购策略。应用此策略也可以提高国家推理效率;如果我们在规划会议后维持枢轴令,那么我们应该同样降低循环闭合的成本,当实际发生时。为了展示其有效性,我们将枢轴应用于一个现实的主动Slam仿真中,在那里我们设法显着减少了规划和推理会话的计算时间。该方法适用于一般分布,并不能准确地损失。
translated by 谷歌翻译
多年来,运动规划,映射和人类轨迹预测的单独领域显着提出。然而,在提供能够使移动操纵器能够执行全身运动并考虑移动障碍物的预测运动时,文献在提供实际框架方面仍然稀疏。基于以前的优化的运动计划方法,使用距离字段遭受更新环境表示所需的高计算成本。我们证明,与从头划痕计算距离场相比,GPU加速预测的复合距离场显着降低计算时间。我们将该技术与完整的运动规划和感知框架集成,其占据动态环境中的人类的预测运动,从而实现了包含预测动作的反应性和先发制人的运动规划。为实现这一目标,我们提出并实施了一种新颖的人类轨迹预测方法,该方法结合了基于轨迹优化的运动规划的意图识别。我们在现实世界丰田人类支持机器人(HSR)上验证了我们的由Onboard Camera的现场RGB-D传感器数据验证了我们的结果框架。除了在公开的数据集提供分析外,我们还释放了牛津室内人类运动(牛津-IHM)数据集,并在人类轨迹预测中展示了最先进的性能。牛津-IHM数据集是一个人类轨迹预测数据集,人们在室内环境中的兴趣区域之间行走。静态和机器人安装的RGB-D相机都观察了用运动捕获系统跟踪的人员。
translated by 谷歌翻译
有效推论是一种数学框架,它起源于计算神经科学,作为大脑如何实现动作,感知和学习的理论。最近,已被证明是在不确定性下存在国家估算和控制问题的有希望的方法,以及一般的机器人和人工代理人的目标驱动行为的基础。在这里,我们审查了最先进的理论和对国家估计,控制,规划和学习的积极推断的实现;描述当前的成就,特别关注机器人。我们展示了相关实验,以适应,泛化和稳健性而言说明其潜力。此外,我们将这种方法与其他框架联系起来,并讨论其预期的利益和挑战:使用变分贝叶斯推理具有功能生物合理性的统一框架。
translated by 谷歌翻译
We propose AstroSLAM, a standalone vision-based solution for autonomous online navigation around an unknown target small celestial body. AstroSLAM is predicated on the formulation of the SLAM problem as an incrementally growing factor graph, facilitated by the use of the GTSAM library and the iSAM2 engine. By combining sensor fusion with orbital motion priors, we achieve improved performance over a baseline SLAM solution. We incorporate orbital motion constraints into the factor graph by devising a novel relative dynamics factor, which links the relative pose of the spacecraft to the problem of predicting trajectories stemming from the motion of the spacecraft in the vicinity of the small body. We demonstrate the excellent performance of AstroSLAM using both real legacy mission imagery and trajectory data courtesy of NASA's Planetary Data System, as well as real in-lab imagery data generated on a 3 degree-of-freedom spacecraft simulator test-bed.
translated by 谷歌翻译
安装在微空中车辆(MAV)上的地面穿透雷达是有助于协助人道主义陆地间隙的工具。然而,合成孔径雷达图像的质量取决于雷达天线的准确和精确运动估计以及与MAV产生信息性的观点。本文介绍了一个完整的自动空气缩进的合成孔径雷达(GPSAR)系统。该系统由空间校准和时间上同步的工业级传感器套件组成,使得在地面上方,雷达成像和光学成像。自定义任务规划框架允许在地上控制地上的Stripmap和圆形(GPSAR)轨迹的生成和自动执行,以及空中成像调查飞行。基于因子图基于Dual接收机实时运动(RTK)全局导航卫星系统(GNSS)和惯性测量单元(IMU)的测量值,以获得精确,高速平台位置和方向。地面真理实验表明,传感器时机为0.8美元,正如0.1美元的那样,定位率为1 kHz。与具有不确定标题初始化的单个位置因子相比,双位置因子配方可提高高达40%,批量定位精度高达59%。我们的现场试验验证了本地化准确性和精度,使得能够相干雷达测量和检测在沙子中埋入的雷达目标。这验证了作为鸟瞰着地图检测系统的潜力。
translated by 谷歌翻译
这本数字本书包含在物理模拟的背景下与深度学习相关的一切实际和全面的一切。尽可能多,所有主题都带有Jupyter笔记本的形式的动手代码示例,以便快速入门。除了标准的受监督学习的数据中,我们将看看物理丢失约束,更紧密耦合的学习算法,具有可微分的模拟,以及加强学习和不确定性建模。我们生活在令人兴奋的时期:这些方法具有从根本上改变计算机模拟可以实现的巨大潜力。
translated by 谷歌翻译
机器学习的最近进步已经创造了利用一类基于坐标的神经网络来解决视觉计算问题的兴趣,该基于坐标的神经网络在空间和时间跨空间和时间的场景或对象的物理属性。我们称之为神经领域的这些方法已经看到在3D形状和图像的合成中成功应用,人体的动画,3D重建和姿势估计。然而,由于在短时间内的快速进展,许多论文存在,但尚未出现全面的审查和制定问题。在本报告中,我们通过提供上下文,数学接地和对神经领域的文学进行广泛综述来解决这一限制。本报告涉及两种维度的研究。在第一部分中,我们通过识别神经字段方法的公共组件,包括不同的表示,架构,前向映射和泛化方法来专注于神经字段的技术。在第二部分中,我们专注于神经领域的应用在视觉计算中的不同问题,超越(例如,机器人,音频)。我们的评论显示了历史上和当前化身的视觉计算中已覆盖的主题的广度,展示了神经字段方法所带来的提高的质量,灵活性和能力。最后,我们展示了一个伴随着贡献本综述的生活版本,可以由社区不断更新。
translated by 谷歌翻译