虚拟测试是确保自动驾驶安全性的至关重要的任务,而传感器仿真是该域中的重要任务。大多数当前的激光雷达模拟非常简单,主要用于执行初始测试,而大多数见解是在道路上收集的。在本文中,我们提出了一种轻巧的方法,以实现更现实的激光雷达模拟,该方法从测试驱动器数据中学习了真实传感器的行为,并将其转换为虚拟域。核心思想是将仿真施加到图像到图像翻译问题中。我们将基于PIX2PIX的架构训练两个现实世界数据集,即流行的Kitti数据集和提供RGB和LIDAR图像的Audi自动驾驶数据集。我们将该网络应用于合成渲染,并表明它从真实图像到模拟图像充分概括。该策略使我们可以在我们的合成世界中跳过传感器特异性,昂贵且复杂的LIDAR物理模拟,并避免过度简化和通过干净的合成环境较大的域间隙。
translated by 谷歌翻译
模拟逼真的传感器是自主系统数据生成的挑战,通常涉及精心手工的传感器设计,场景属性和物理建模。为了减轻这一点,我们引入了一条管道,用于对逼真的激光雷达传感器进行数据驱动的模拟。我们提出了一个模型,该模型可以在RGB图像和相应的LIDAR功能(例如Raydrop或每点强度)之间直接从真实数据集中进行映射。我们表明,我们的模型可以学会编码逼真的效果,例如透明表面上的掉落点或反射材料上的高强度回报。当应用于现成的模拟器软件提供的天真播放点云时,我们的模型通过根据场景的外观预测强度和删除点来增强数据,以匹配真实的激光雷达传感器。我们使用我们的技术来学习两个不同的LIDAR传感器的模型,并使用它们相应地改善模拟的LiDAR数据。通过车辆细分的示例任务,我们表明通过我们的技术增强模拟点云可以改善下游任务性能。
translated by 谷歌翻译
我们提出了Lidargen,这是一种新型,有效且可控的生成模型,可产生逼真的LIDAR点云感觉读数。我们的方法利用强大的得分匹配基于能量的模型,并将点云生成过程作为随机降解过程在等应角视图中。该模型使我们能够采样具有保证的物理可行性和可控性的多样化和高质量点云样本。我们验证方法对挑战性Kitti-360和Nuscenes数据集的有效性。定量和定性结果表明,与其他生成模型相比,我们的方法产生的样本更现实。此外,LIDARGEN可以在不进行重新培训的情况下在输入上进行样本云。我们证明我们所提出的生成模型可直接用于致密激光点云。我们的代码可在以下网址找到:https://www.zyrianov.org/lidargen/
translated by 谷歌翻译
Our dataset provides dense annotations for each scan of all sequences from the KITTI Odometry Benchmark [19]. Here, we show multiple scans aggregated using pose information estimated by a SLAM approach.
translated by 谷歌翻译
Segmentation of lidar data is a task that provides rich, point-wise information about the environment of robots or autonomous vehicles. Currently best performing neural networks for lidar segmentation are fine-tuned to specific datasets. Switching the lidar sensor without retraining on a big set of annotated data from the new sensor creates a domain shift, which causes the network performance to drop drastically. In this work we propose a new method for lidar domain adaption, in which we use annotated panoptic lidar datasets and recreate the recorded scenes in the structure of a different lidar sensor. We narrow the domain gap to the target data by recreating panoptic data from one domain in another and mixing the generated data with parts of (pseudo) labeled target domain data. Our method improves the nuScenes to SemanticKITTI unsupervised domain adaptation performance by 15.2 mean Intersection over Union points (mIoU) and by 48.3 mIoU in our semi-supervised approach. We demonstrate a similar improvement for the SemanticKITTI to nuScenes domain adaptation by 21.8 mIoU and 51.5 mIoU, respectively. We compare our method with two state of the art approaches for semantic lidar segmentation domain adaptation with a significant improvement for unsupervised and semi-supervised domain adaptation. Furthermore we successfully apply our proposed method to two entirely unlabeled datasets of two state of the art lidar sensors Velodyne Alpha Prime and InnovizTwo, and train well performing semantic segmentation networks for both.
translated by 谷歌翻译
LIDAR传感器提供有关周围场景的丰富3D信息,并且对于自动驾驶汽车的任务(例如语义细分,对象检测和跟踪)变得越来越重要。模拟激光雷达传感器的能力将加速自动驾驶汽车的测试,验证和部署,同时降低成本并消除现实情况下的测试风险。为了解决以高保真度模拟激光雷达数据的问题,我们提出了一条管道,该管道利用移动映射系统获得的现实世界点云。基于点的几何表示,更具体地说,已经证明了它们能够在非常大点云中准确对基础表面进行建模的能力。我们引入了一种自适应夹层生成方法,该方法可以准确地对基础3D几何形状进行建模,尤其是对于薄结构。我们还通过在GPU上铸造Ray铸造的同时,在有效处理大点云的同时,我们还开发了更快的时间激光雷达模拟。我们在现实世界中测试了激光雷达的模拟,与基本的碎片和网格划分技术相比,表现出定性和定量结果,证明了我们的建模技术的优势。
translated by 谷歌翻译
大量的研究与逼真的传感器数据的产生有关。激光点云是由复杂的模拟或学习的生成模型生成的。通常利用生成的数据来启用或改善下游感知算法。这些程序来自两个主要问题:首先,如何评估生成数据的现实主义?其次,更现实的数据还会导致更好的感知表现吗?本文解决了问题,并提出了一个新颖的指标,以量化LiDar Point Cloud的现实主义。通过训练代理分类任务,可以从现实世界和合成点云中学到相关功能。在一系列实验中,我们证明了我们的指标的应用来确定生成的LiDAR数据的现实主义,并将我们的度量的现实主义估计与分割模型的性能进行比较。我们确认我们的指标为下游细分性能提供了指示。
translated by 谷歌翻译
基于LIDAR的传感驱动器电流自主车辆。尽管进展迅速,但目前的激光雷达传感器在分辨率和成本方面仍然落后于传统彩色相机背后的二十年。对于自主驾驶,这意味着靠近传感器的大物体很容易可见,但远方或小物体仅包括一个测量或两个。这是一个问题,尤其是当这些对象结果驾驶危险时。另一方面,在车载RGB传感器中清晰可见这些相同的对象。在这项工作中,我们提出了一种将RGB传感器无缝熔化成基于LIDAR的3D识别方法。我们的方法采用一组2D检测来生成密集的3D虚拟点,以增加否则稀疏的3D点云。这些虚拟点自然地集成到任何基于标准的LIDAR的3D探测器以及常规激光雷达测量。由此产生的多模态检测器简单且有效。大规模NUSCENES数据集的实验结果表明,我们的框架通过显着的6.6地图改善了强大的中心点基线,并且优于竞争融合方法。代码和更多可视化可在https://tianweiy.github.io/mvp/上获得
translated by 谷歌翻译
In this work, we study 3D object detection from RGB-D data in both indoor and outdoor scenes. While previous methods focus on images or 3D voxels, often obscuring natural 3D patterns and invariances of 3D data, we directly operate on raw point clouds by popping up RGB-D scans. However, a key challenge of this approach is how to efficiently localize objects in point clouds of large-scale scenes (region proposal). Instead of solely relying on 3D proposals, our method leverages both mature 2D object detectors and advanced 3D deep learning for object localization, achieving efficiency as well as high recall for even small objects. Benefited from learning directly in raw point clouds, our method is also able to precisely estimate 3D bounding boxes even under strong occlusion or with very sparse points. Evaluated on KITTI and SUN RGB-D 3D detection benchmarks, our method outperforms the state of the art by remarkable margins while having real-time capability. * Majority of the work done as an intern at Nuro, Inc. depth to point cloud 2D region (from CNN) to 3D frustum 3D box (from PointNet)
translated by 谷歌翻译
具有丰富注释的高质量结构化数据是处理道路场景的智能车辆系统中的关键组件。但是,数据策展和注释需要大量投资并产生低多样性的情况。最近对合成数据的兴趣日益增长,提出了有关此类系统改进范围的问题,以及产生大量和变化的模拟数据所需的手动工作量。这项工作提出了一条合成数据生成管道,该管道利用现有数据集(如Nuscenes)来解决模拟数据集中存在的困难和域间隙。我们表明,使用现有数据集的注释和视觉提示,我们可以促进自动化的多模式数据生成,模仿具有高保真性的真实场景属性,以及以物理意义的方式使样本多样化的机制。我们通过提供定性和定量实验,并通过使用真实和合成数据来证明MIOU指标的改进,以实现CityScapes和Kitti-Step数据集的语义分割。所有相关代码和数据均在GitHub(https://github.com/shubham1810/trove_toolkit)上发布。
translated by 谷歌翻译
农业部门的自动化和机器人被视为该行业面临的社会经济挑战的可行解决方案。该技术经常依赖于提供有关作物,植物和整个环境的信息的智能感知系统。传统的2D视觉系统面临的挑战可以由现代3D视觉系统解决,使物体,尺寸和形状估计的直接定位或闭塞的处理能够。到目前为止,使用3D感测主要限于室内或结构化环境。在本文中,我们评估了现代传感技术,包括立体声和飞行时间摄像机,用于在农业中的形状的3D感知,并根据其形状从背景中分割软果实的可用性。为此,我们提出了一种新颖的3D深度神经网络,其利用来自基于相机的3D传感器的信息的有组织性质。与最先进的3D网络相比,我们展示了所提出的体系结构的卓越性能和效率。通过模拟研究,我们还显示了农业中对象分割的3D感测范例的潜力,并提供了洞察力和分析所需的形状质量和预期作物的进一步分析。这项工作的结果应该鼓励研究人员和公司开发更准确和强大的3D传感技术,以确保他们在实际农业应用中更广泛的采用。
translated by 谷歌翻译
自动化驾驶系统(广告)开辟了汽车行业的新领域,为未来的运输提供了更高的效率和舒适体验的新可能性。然而,在恶劣天气条件下的自主驾驶已经存在,使自动车辆(AVS)长时间保持自主车辆(AVS)或更高的自主权。本文评估了天气在分析和统计方式中为广告传感器带来的影响和挑战,并对恶劣天气条件进行了解决方案。彻底报道了关于对每种天气的感知增强的最先进技术。外部辅助解决方案如V2X技术,当前可用的数据集,模拟器和天气腔室的实验设施中的天气条件覆盖范围明显。通过指出各种主要天气问题,自主驾驶场目前正在面临,近年来审查硬件和计算机科学解决方案,这项调查概述了在不利的天气驾驶条件方面的障碍和方向的障碍和方向。
translated by 谷歌翻译
我们检查了生成的对抗性网络(GANS)的可行性,从激光乐队点云生成照片逼真图像。为此目的,我们创建了一个点云图像对的数据集,并训练了GaN,以预测包含反射率和距离信息的LiDAR点云的光电型图像。我们的模型学会了如何从只需点云数据,甚至是带黑色汽车的图像来预测现实看的图像。由于其较低的反射率,黑色汽车难以直接从点云中检测。该方法可能用于将来执行关于从LIDAR点云生成的照片型图像上的视觉对象识别。除了传统的LIDAR系统之外,第二系统还将从LIDAR点云产生的光电型图像的系统将在实时同时运行视觉对象识别。通过这种方式,我们可能会保留LIDAR的至高无上,并受益于使用光学 - 现实图像进行视觉对象识别,而不会使用任何相机。此外,这种方法可用于在不使用任何相机图像的情况下着色点云。
translated by 谷歌翻译
作为许多自主驾驶和机器人活动的基本组成部分,如自我运动估计,障碍避免和场景理解,单眼深度估计(MDE)引起了计算机视觉和机器人社区的极大关注。在过去的几十年中,已经开发了大量方法。然而,据我们所知,对MDE没有全面调查。本文旨在通过审查1970年至2021年之间发布的197个相关条款来弥补这一差距。特别是,我们为涵盖各种方法的MDE提供了全面的调查,介绍了流行的绩效评估指标并汇总公开的数据集。我们还总结了一些代表方法的可用开源实现,并比较了他们的表演。此外,我们在一些重要的机器人任务中审查了MDE的应用。最后,我们通过展示一些有希望的未来研究方向来结束本文。预计本调查有助于读者浏览该研究领域。
translated by 谷歌翻译
现代计算机视觉已超越了互联网照片集的领域,并进入了物理世界,通过非结构化的环境引导配备摄像头的机器人和自动驾驶汽车。为了使这些体现的代理与现实世界对象相互作用,相机越来越多地用作深度传感器,重建了各种下游推理任务的环境。机器学习辅助的深度感知或深度估计会预测图像中每个像素的距离。尽管已经在深入估算中取得了令人印象深刻的进步,但仍然存在重大挑战:(1)地面真相深度标签很难大规模收集,(2)通常认为相机信息是已知的,但通常是不可靠的,并且(3)限制性摄像机假设很常见,即使在实践中使用了各种各样的相机类型和镜头。在本论文中,我们专注于放松这些假设,并描述将相机变成真正通用深度传感器的最终目标的贡献。
translated by 谷歌翻译
RGB-D数据对于解决计算机视觉中的许多问题至关重要。已经提出了数百个包含各种场景的公共RGB-D数据集,例如室内,室外,空中,驾驶和医疗。这些数据集对不同的应用程序很有用,对于解决经典的计算机视觉任务(例如单眼深度估计)是基础。本文审查并分类了包括深度信息的图像数据集。我们收集了203个数据集,其中包含可访问的数据,并将它们分为三类:场景/对象,身体和医疗。我们还提供了不同类型的传感器,深度应用程序的概述,并研究了包含深度数据的数据集的使用和创建的趋势和未来方向,以及如何将它们应用于研究中可推广的机器学习模型的开发。单眼深度估计场。
translated by 谷歌翻译
机器人技术中的安全运动规划需要已验证的空间规划,这些空间没有障碍。但是,由于其深度测量值的稀疏性,使用LiDARS获得此类环境表示是具有挑战性的。我们提出了一个学习辅助的3D激光雷达重建框架,该框架借助重叠的摄像头图像来为稀疏的激光雷达深度测量,以生成比单独使用原始liDar测量值可以实现更明确的自由空间的较密集的重建。我们使用带有编码器解码器结构的神经网络来预测密集的深度图像以及使用体积映射系统融合的深度不确定性估计。我们在使用手持式传感设备和腿部机器人捕获的现实世界室外数据集上进行实验。我们使用来自16束束激光雷达映射建筑网络的输入数据,我们的实验表明,通过我们的方法,估计的自由空间的量增加了40%以上。我们还表明,我们在合成数据集通用上训练的方法非常适合现实世界户外场景,而无需进行其他微调。最后,我们演示了运动计划任务如何从这些密集的重建中受益。
translated by 谷歌翻译
单眼相机传感器对于智能车辆操作和自动驾驶帮助至关重要,并且在交通控制基础设施中也很大程度上使用。但是,校准单眼摄像机很耗时,通常需要大量的手动干预。在这项工作中,我们提出了一种外部摄像机校准方法,该方法通过利用来自图像和点云的语义分割信息来自动化参数估计。我们的方法依赖于对摄像头姿势的粗略初始测量,并建立在具有高精度定位的车辆上的雷达传感器上,以捕获相机环境的点云。之后,通过执行语义分段传感器数据的激光镜头到相机的注册来获得相机和世界坐标空间之间的映射。我们在模拟和现实世界中评估了我们的方法,以证明校准结果中的低误差测量值。我们的方法适用于基础设施传感器和车辆传感器,而它不需要摄像机平台的运动。
translated by 谷歌翻译
3D object detection is an essential task in autonomous driving. Recent techniques excel with highly accurate detection rates, provided the 3D input data is obtained from precise but expensive LiDAR technology. Approaches based on cheaper monocular or stereo imagery data have, until now, resulted in drastically lower accuracies -a gap that is commonly attributed to poor image-based depth estimation. However, in this paper we argue that it is not the quality of the data but its representation that accounts for the majority of the difference. Taking the inner workings of convolutional neural networks into consideration, we propose to convert image-based depth maps to pseudo-LiDAR representations -essentially mimicking the LiDAR signal. With this representation we can apply different existing LiDAR-based detection algorithms. On the popular KITTI benchmark, our approach achieves impressive improvements over the existing state-of-the-art in image-based performance -raising the detection accuracy of objects within the 30m range from the previous state-of-the-art of 22% to an unprecedented 74%. At the time of submission our algorithm holds the highest entry on the KITTI 3D object detection leaderboard for stereo-image-based approaches. Our code is publicly available at https: //github.com/mileyan/pseudo_lidar.
translated by 谷歌翻译
仿真有可能改变在安全关键方案中部署的移动代理的强大算法的开发。然而,对现有模拟发动机的差的光敏性和缺乏不同的传感器方式保持关键障碍朝来实现这种潜力。在这里,我们呈现Vista,一个开源,数据驱动模拟器,用于为自动车辆集成多种类型的传感器。使用高保真度,实际数据集,Vista表示和模拟RGB摄像机,3D LIDAR和基于事件的相机,可以快速生成模拟中的新颖观点,从而富集可用于与难以实现的拐角案例的政策学习的数据在物理世界中捕获。使用Vista,我们展示了在每个传感器类型上培训和测试对控制策略的能力,并通过在全尺度自主车辆上进行展示这种方法的功率。在Vista中学到的政策展示了SIM-TEAR-REAL转移,而不是改进和更高的鲁棒性,而不是完全在现实世界数据上培训的鲁棒性。
translated by 谷歌翻译