协作感知最近显示出具有对单一主体感知的感知能力的巨大潜力。现有的协作感知方法通常考虑理想的交流环境。但是,实际上,通信系统不可避免地遭受了延迟问题,从而导致潜在的性能降解和安全关键应用程序(例如自动驾驶)的高风险。从机器学习的角度来看,为了减轻不可避免的沟通潜伏期造成的效果,我们提出了第一个延迟感知的协作感知系统,该系统积极采用从多个代理到同一时间戳的异步感知特征,从而促进了协作的稳健性和有效性。为了实现此类特征级别的同步,我们提出了一个新型的延迟补偿模块,称为Syncnet,该模块利用特征注意的共生估计和时间调制技术。实验结果表明,在最新的协作感知数据集V2X-SIM上,我们的方法优于最先进的协作感知方法15.6%。
translated by 谷歌翻译
多代理协作感知可以通过使代理商能够通过交流相互共享互补信息来显着升级感知表现。它不可避免地会导致感知表现与沟通带宽之间的基本权衡。为了解决这个瓶颈问题,我们提出了一个空间置信度图,该图反映了感知信息的空间异质性。它使代理只能在空间上共享稀疏而感知的关键信息,从而有助于沟通。基于这张新型的空间置信度图,我们提出了2Comm,即沟通有效的协作感知框架。其中2Comm具有两个不同的优势:i)它考虑了实用的压缩,并使用较少的沟通来通过专注于感知至关重要的领域来实现更高的感知表现; ii)它可以通过动态调整涉及通信的空间区域来处理不同的通信带宽。要评估2comm的位置,我们考虑了在现实世界和模拟方案中使用两种模式(相机/激光镜头)和两种代理类型(CAR/无人机)的3D对象检测:OPV2V,v2x-sim,dair-v2x和我们的原始的Coperception-uavs。其中2comm始终优于先前的方法;例如,它实现了超过$ 100,000 \ times $较低的通信量,并且在OPV2V上仍然优于脱颖而出和v2x-vit。我们的代码可在https://github.com/mediabrain-sjtu/where2comm上找到。
translated by 谷歌翻译
为了促进更好的性能带宽权衡,以实现多种代理人的感知,我们提出了一种新颖的蒸馏协作图(光盘),以模拟代理商之间的培训,姿势感知和适应性协作。我们的主要新科特迪斯在两个方面。首先,我们提出了一位教师学生框架通过知识蒸馏训练光盘。教师模型采用与全面查看输入的早期合作;学生模型基于中间协作与单视图输入。我们的框架通过在学生模型中约束协作后的特征地图来列进讨论,以匹配教师模型的对应关系。其次,我们提出了矩阵值的边缘重量。在这样的矩阵中,每个元素将互及的间歇注意力反映在特定空间区域,允许代理自适应地突出显示信息区域。在推论期间,我们只需要使用名为Distilled Collaboration Network的学生模型(Disconet)。归因于师生框架,具有共享Disconet的多个代理商可以协作地与整体视图进行假设教师模型的表现。我们的方法在V2X-SIM 1.0上验证了我们使用Carla和Sumo Co-Simulation合成的大规模多代理感知数据集。我们在多代理3D对象检测中的定量和定性实验表明,Disconet不仅可以实现比最先进的协作的感知方法更好的性能带宽权衡,而且还带来了更直接的设计理由。我们的代码可在https://github.com/ai4ce/disconet上找到。
translated by 谷歌翻译
感知是自动驾驶系统的关键模块之一,最近取得了长足的进步。但是,单个车辆的能力有限,导致感知表现的瓶颈。为了突破个人感知的局限性,已经提出了协作感知,使车辆能够共享信息以了解超出视线和视野的环境。在本文中,我们对有关有前途的协作感知技术的相关工作进行了评论,包括介绍基本概念,推广协作模式并总结协作感知的关键成分和应用。最后,我们讨论了该研究领域的公开挑战和问题,并提供了一些潜在的方向。
translated by 谷歌翻译
在本文中,我们调查了车辆到所有(V2X)通信的应用,以提高自动驾驶汽车的感知性能。我们使用新型视觉变压器提供了一个与V2X通信的强大合作感知框架。具体而言,我们建立了一个整体关注模型,即V2X-VIT,以有效地融合跨道路代理(即车辆和基础设施)的信息。 V2X-VIT由异质多代理自我注意和多尺度窗口自我注意的交替层组成,该层捕获了代理间的相互作用和全面的空间关系。这些关键模块在统一的变压器体系结构中设计,以应对常见的V2X挑战,包括异步信息共享,姿势错误和V2X组件的异质性。为了验证我们的方法,我们使用Carla和OpenCDA创建了一个大规模的V2X感知数据集。广泛的实验结果表明,V2X-VIT设置了3D对象检测的新最先进的性能,即使在恶劣的嘈杂环境下,也可以实现强大的性能。该代码可在https://github.com/derrickxunu/v2x-vit上获得。
translated by 谷歌翻译
车辆到所有(V2X)通信技术使车辆与附近环境中许多其他实体之间的协作可以从根本上改善自动驾驶的感知系统。但是,缺乏公共数据集极大地限制了协作感知的研究进度。为了填补这一空白,我们提出了V2X-SIM,这是一个针对V2X辅助自动驾驶的全面模拟多代理感知数据集。 V2X-SIM提供:(1)\ hl {Multi-Agent}传感器记录来自路边单元(RSU)和多种能够协作感知的车辆,(2)多模式传感器流,可促进多模式感知和多模式感知和(3)支持各种感知任务的各种基础真理。同时,我们在三个任务(包括检测,跟踪和细分)上为最先进的协作感知算法提供了一个开源测试台,并为最先进的协作感知算法提供了基准。 V2X-SIM试图在现实数据集广泛使用之前刺激自动驾驶的协作感知研究。我们的数据集和代码可在\ url {https://ai4ce.github.io/v2x-sim/}上获得。
translated by 谷歌翻译
Deep learning has been widely used in the perception (e.g., 3D object detection) of intelligent vehicle driving. Due to the beneficial Vehicle-to-Vehicle (V2V) communication, the deep learning based features from other agents can be shared to the ego vehicle so as to improve the perception of the ego vehicle. It is named as Cooperative Perception in the V2V research, whose algorithms have been dramatically advanced recently. However, all the existing cooperative perception algorithms assume the ideal V2V communication without considering the possible lossy shared features because of the Lossy Communication (LC) which is common in the complex real-world driving scenarios. In this paper, we first study the side effect (e.g., detection performance drop) by the lossy communication in the V2V Cooperative Perception, and then we propose a novel intermediate LC-aware feature fusion method to relieve the side effect of lossy communication by a LC-aware Repair Network (LCRN) and enhance the interaction between the ego vehicle and other vehicles by a specially designed V2V Attention Module (V2VAM) including intra-vehicle attention of ego vehicle and uncertainty-aware inter-vehicle attention. The extensive experiment on the public cooperative perception dataset OPV2V (based on digital-twin CARLA simulator) demonstrates that the proposed method is quite effective for the cooperative point cloud based 3D object detection under lossy V2V communication.
translated by 谷歌翻译
现有的多代理感知系统假设每个代理都使用具有相同参数和体系结构的相同模型。由于置信度得分不匹配,因此可以通过不同的感知模型来降低性能。在这项工作中,我们提出了一个模型不足的多代理感知框架,以减少由模型差异造成的负面影响,而无需共享模型信息。具体而言,我们提出了一个可以消除预测置信度得分偏置的置信校准器。每个代理商在标准的公共数据库中独立执行此类校准,以保护知识产权。我们还提出了一个相应的边界盒聚合算法,该算法考虑了相邻框的置信度得分和空间协议。我们的实验阐明了不同试剂的模型校准的必要性,结果表明,提出的框架改善了异质剂的基线3D对象检测性能。
translated by 谷歌翻译
Bird's Eye View(BEV)语义分割在自动驾驶的空间传感中起着至关重要的作用。尽管最近的文献在BEV MAP的理解上取得了重大进展,但它们都是基于基于摄像头的系统,这些系统难以处理遮挡并检测复杂的交通场景中的遥远对象。车辆到车辆(V2V)通信技术使自动驾驶汽车能够共享感应信息,与单代理系统相比,可以显着改善感知性能和范围。在本文中,我们提出了Cobevt,这是可以合作生成BEV MAP预测的第一个通用多代理多机构感知框架。为了有效地从基础变压器体系结构中的多视图和多代理数据融合相机功能,我们设计了融合的轴向注意力或传真模块,可以捕获跨视图和代理的局部和全局空间交互。 V2V感知数据集OPV2V的广泛实验表明,COBEVT实现了合作BEV语义分段的最新性能。此外,COBEVT被证明可以推广到其他任务,包括1)具有单代理多摄像机的BEV分割和2)具有多代理激光雷达系统的3D对象检测,并实现具有实时性能的最新性能时间推理速度。
translated by 谷歌翻译
自主驾驶的感知模型需要在低潜伏期内快速推断。尽管现有作品忽略了处理后不可避免的环境变化,但流媒体感知将延迟和准确性共同评估为视频在线感知的单个度量标准,从而指导先前的工作以搜索准确性和速度之间的权衡。在本文中,我们探讨了该指标上实时模型的性能,并赋予模型预测未来的能力,从而显着改善了流媒体感知的结果。具体来说,我们构建了一个具有两个有效模块的简单框架。一个是双流感知模块(DFP)。它分别由捕获运动趋势和基本检测特征并行的动态流和静态流动。趋势意识损失(TAL)是另一个模块,它以其移动速度适应每个对象的体重。实际上,我们考虑了多个速度驾驶场景,并进一步提出了含量不足的流媒体AP(VSAP)以共同评估准确性。在这种现实的环境中,我们设计了一种有效的混合速度训练策略,以指导检测器感知任何速度。我们的简单方法与强大的基线相比,在Argoverse-HD数据集上实现了最先进的性能,并将SAP和VSAP分别提高了4.7%和8.2%,从而验证了其有效性。
translated by 谷歌翻译
共享连接和自动驾驶汽车(CAV)之间的信息从根本上改善了自动驾驶的协作对象检测的性能。但是,由于实际挑战,骑士仍然存在不确定性的对象检测,这将影响自动驾驶中的后来模块,例如计划和控制。因此,不确定性定量对于诸如CAV等安全至关重要系统至关重要。我们的工作是第一个估计协作对象检测的不确定性的工作。我们提出了一种新型的不确定性量化方法,称为Double-M量化,该方法通过直接建模到边界框的每个角落的多变量高斯分布来定制移动块引导(MBB)算法。我们的方法基于离线双M训练过程,通过一个推理通过了一个推理,同时捕获了认知的不确定性和差异不确定性。它可以与不同的协作对象检测器一起使用。通过对综合协作感知数据集进行的实验,我们表明,与最先进的不确定性量化方法相比,我们的双M方法在不确定性评分和3%的准确度上提高了4倍以上。我们的代码在https://coperception.github.io/double-m-quantification上公开。
translated by 谷歌翻译
车辆到设施通信技术的最新进展使自动驾驶汽车能够共享感官信息以获得更好的感知性能。随着自动驾驶汽车和智能基础设施的快速增长,V2X感知系统将很快在大规模部署,这引发了一个关键的问题:我们如何在现实世界部署之前在挑战性的交通情况下评估和改善其性能?收集多样化的大型现实世界测试场景似乎是最简单的解决方案,但昂贵且耗时,而且收藏量只能涵盖有限的情况。为此,我们提出了第一个开放的对抗场景生成器V2XP-ASG,该发电机可以为现代基于激光雷达的多代理感知系统产生现实,具有挑战性的场景。 V2XP-ASG学会了构建对抗性协作图,并以对抗性和合理的方式同时扰动多个代理的姿势。该实验表明,V2XP-ASG可以有效地确定各种V2X感知系统的具有挑战性的场景。同时,通过对有限数量的挑战场景进行培训,V2X感知系统的准确性可以进一步提高12.3%,而正常场景的准确性可以进一步提高4%。
translated by 谷歌翻译
配备摄像机的无人机可以显着增强人类在3D空间中具有显着的可操作性,从而使人类感知世界的能力。具有讽刺意味的是,无人机的对象检测始终是在2D图像空间中进行的,这从根本上限制了其理解3D场景的能力。此外,由于缺乏变形模型,无法直接应用于为自动驾驶开发的现有3D对象检测方法,这对于具有敏感变形和小物体的遥远空中透视至关重要。为了填补空白,这项工作提出了一个名为DVDET的双视检测系统,以在2D图像空间和3D物理空间中实现空中单眼对象检测。为了解决严重的视图变形问题,我们提出了一个可训练的可训练的可训练的转换模块,该模块可以从无人机的角度正确地扭曲信息到BEV。与汽车的单眼方法相比,我们的转换包括一个可学习的可变形网络,可显式修改严重的偏差。为了应对数据集挑战,我们提出了一个名为AM3D-SIM的新的大规模模拟数据集,该数据集由AirSim和Carla的共模制成,以及一个名为AM3D-REAL的新的现实世界空中数据集,由DJI Matrice 300 RTK收集,在两个数据集中,都提供了3D对象检测的高质量注释。广泛的实验表明,i)空中单眼3D对象检测是可行的; ii)在仿真数据集中预先训练的模型受益于现实世界的性能,iii)DVDET也有益于汽车的单眼3D对象检测。为了鼓励更多的研究人员调查该领域,我们将在https://sjtu-magic.github.io/dataset/am3d/中发布数据集和相关代码。
translated by 谷歌翻译
采用车辆到车辆通信以提高自动驾驶技术中的感知性能,最近引起了相当大的关注;然而,对于基准测试算法的合适开放数据集已经难以开发和评估合作感知技术。为此,我们介绍了用于车辆到车辆的第一个大型开放模拟数据集。它包含超过70个有趣的场景,11,464帧和232,913帧的注释3D车辆边界盒,从卡拉的8个城镇和洛杉矶的数码镇。然后,我们构建了一个全面的基准,共有16种实施模型来评估若干信息融合策略〜(即早期,晚期和中间融合),最先进的激光雷达检测算法。此外,我们提出了一种新的细心中间融合管线,以从多个连接的车辆汇总信息。我们的实验表明,拟议的管道可以很容易地与现有的3D LIDAR探测器集成,即使具有大的压缩速率也可以实现出色的性能。为了鼓励更多的研究人员来调查车辆到车辆的感知,我们将释放数据集,基准方法以及HTTPS://mobility-lab.seas.ucla.edu/opv2v2v/中的所有相关代码。
translated by 谷歌翻译
近年来,自主驾驶LIDAR数据的3D对象检测一直在迈出卓越的进展。在最先进的方法中,已经证明了将点云进行编码为鸟瞰图(BEV)是有效且有效的。与透视图不同,BEV在物体之间保留丰富的空间和距离信息;虽然在BEV中相同类型的更远物体不会较小,但它们包含稀疏点云特征。这一事实使用共享卷积神经网络削弱了BEV特征提取。为了解决这一挑战,我们提出了范围感知注意网络(RAANET),提取更强大的BEV功能并产生卓越的3D对象检测。范围感知的注意力(RAA)卷曲显着改善了近距离的特征提取。此外,我们提出了一种新的辅助损耗,用于密度估计,以进一步增强覆盖物体的Raanet的检测精度。值得注意的是,我们提出的RAA卷积轻量级,并兼容,以集成到用于BEV检测的任何CNN架构中。 Nuscenes DataSet上的广泛实验表明,我们的提出方法优于基于LIDAR的3D对象检测的最先进的方法,具有16 Hz的实时推断速度,为LITE版本为22 Hz。该代码在匿名GitHub存储库HTTPS://github.com/Anonymous0522 / ange上公开提供。
translated by 谷歌翻译
合作感允许连接的自动驾驶汽车(CAV)与附近的其他骑士相互作用,以增强对周围物体的感知以提高安全性和可靠性。它可以弥补常规车辆感知的局限性,例如盲点,低分辨率和天气影响。合作感知中间融合方法的有效特征融合模型可以改善特征选择和信息聚集,以进一步提高感知精度。我们建议具有可训练的特征选择模块的自适应特征融合模型。我们提出的模型之一是通过空间自适应特征融合(S-Adafusion)在OPV2V数据集的两个子集上的所有其他最先进的模型:默认的Carla Towns用于车辆检测和用于域适应的Culver City。此外,先前的研究仅测试了合作感的车辆检测。但是,行人在交通事故中更有可能受到重伤。我们使用CODD数据集评估了车辆和行人检测的合作感的性能。与CODD数据集中的车辆和行人检测相比,我们的架构达到的平均精度(AP)高。实验表明,与常规感知过程相比,合作感也可以提高行人检测准确性。
translated by 谷歌翻译
以视觉为中心的BEV感知由于其固有的优点,最近受到行业和学术界的关注,包括展示世界自然代表和融合友好。随着深度学习的快速发展,已经提出了许多方法来解决以视觉为中心的BEV感知。但是,最近没有针对这个小说和不断发展的研究领域的调查。为了刺激其未来的研究,本文对以视觉为中心的BEV感知及其扩展进行了全面调查。它收集并组织了最近的知识,并对常用算法进行了系统的综述和摘要。它还为几项BEV感知任务提供了深入的分析和比较结果,从而促进了未来作品的比较并激发了未来的研究方向。此外,还讨论了经验实现细节并证明有利于相关算法的开发。
translated by 谷歌翻译
Fusing the camera and LiDAR information has become a de-facto standard for 3D object detection tasks. Current methods rely on point clouds from the LiDAR sensor as queries to leverage the feature from the image space. However, people discovered that this underlying assumption makes the current fusion framework infeasible to produce any prediction when there is a LiDAR malfunction, regardless of minor or major. This fundamentally limits the deployment capability to realistic autonomous driving scenarios. In contrast, we propose a surprisingly simple yet novel fusion framework, dubbed BEVFusion, whose camera stream does not depend on the input of LiDAR data, thus addressing the downside of previous methods. We empirically show that our framework surpasses the state-of-the-art methods under the normal training settings. Under the robustness training settings that simulate various LiDAR malfunctions, our framework significantly surpasses the state-of-the-art methods by 15.7% to 28.9% mAP. To the best of our knowledge, we are the first to handle realistic LiDAR malfunction and can be deployed to realistic scenarios without any post-processing procedure. The code is available at https://github.com/ADLab-AutoDrive/BEVFusion.
translated by 谷歌翻译
Motion prediction is highly relevant to the perception of dynamic objects and static map elements in the scenarios of autonomous driving. In this work, we propose PIP, the first end-to-end Transformer-based framework which jointly and interactively performs online mapping, object detection and motion prediction. PIP leverages map queries, agent queries and mode queries to encode the instance-wise information of map elements, agents and motion intentions, respectively. Based on the unified query representation, a differentiable multi-task interaction scheme is proposed to exploit the correlation between perception and prediction. Even without human-annotated HD map or agent's historical tracking trajectory as guidance information, PIP realizes end-to-end multi-agent motion prediction and achieves better performance than tracking-based and HD-map-based methods. PIP provides comprehensive high-level information of the driving scene (vectorized static map and dynamic objects with motion information), and contributes to the downstream planning and control. Code and models will be released for facilitating further research.
translated by 谷歌翻译
车辆到所有(V2X)网络已使自主驾驶中的合作感达到了协作感,这是对独立情报的根本缺陷的有前途的解决方案,包括盲区和远距离感知。但是,缺乏数据集严重阻碍了协作感知算法的发展。在这项工作中,我们发布了海豚:用于协作感知的数据集,可以使和谐且相互联系的自动驾驶,这是一个新的模拟大规模的各种大规模的各种赛车多模式多模式自动驾驶数据集,该数据集为互连为互连的开创性基准平台提供自动驾驶。海豚在六个维度上优于当前数据集:从车辆和道路侧单元(RSU)(RSUS)的临时图像和点云,启用车辆到车辆(V2V)和车辆到基础设施(V2I)的协作感知; 6具有动态天气条件的典型场景使各种互连的自动驾驶数据集最多;精心选择的观点,提供关键区域和每个对象的全部覆盖范围; 42376帧和292549个对象,以及相应的3D注释,地理位置和校准,构成了最大的协作知觉数据集;全高清图像和64线激光雷达构建高分辨率数据,并具有足够的详细信息;组织良好的API和开源代码可确保海豚的可扩展性。我们还构建了2D检测,3D检测和关于海豚的多视图协作任务的基准。实验结果表明,通过V2X通信的原始融合方案可以帮助提高精度,并在RSU存在时减少昂贵的LiDAR设备的必要性,这可能会加速相互联系的自动驾驶车辆的普及。现在可以在https://dolphins-dataset.net/上获得海豚。
translated by 谷歌翻译