检测稀有物体(例如,交通锥,交通桶和交通警告三角形)是提高自动驾驶安全性的重要感知任务。对此类模型的培训通常需要大量的注释数据,这些数据既昂贵又耗时。为了解决上述问题,新兴的方法是应用数据扩展以自动生成无成本的培训样本。在这项工作中,我们提出了一项有关简单复制数据增强的系统研究,以实现自动驾驶中罕见的对象检测。具体而言,引入了本地自适应实例级图像转换,以生成从源域到目标域的逼真的稀有对象掩模。此外,流量场景上下文被用来指导稀有物体的口罩的放置。为此,我们的数据增强通过利用本地和全球一致性来生成具有高质量和现实特征的培训数据。此外,我们构建了一个新的数据集,稀有对象数据集(ROD),组成10K培训图像,4K验证图像和相应的标签,这些标签具有不同的自动驾驶方案。 ROD上的实验表明,我们的方法在稀有物体检测方面取得了有希望的结果。我们还提出了一项详尽的研究,以说明基于局部自适应和全球限制因素的副本数据增强的有效性,以实现稀有对象检测。数据,开发套件和ROD的更多信息可在线获得:\ url {https://nullmax-vision.github.io}。
translated by 谷歌翻译
近年来,自主驾驶LIDAR数据的3D对象检测一直在迈出卓越的进展。在最先进的方法中,已经证明了将点云进行编码为鸟瞰图(BEV)是有效且有效的。与透视图不同,BEV在物体之间保留丰富的空间和距离信息;虽然在BEV中相同类型的更远物体不会较小,但它们包含稀疏点云特征。这一事实使用共享卷积神经网络削弱了BEV特征提取。为了解决这一挑战,我们提出了范围感知注意网络(RAANET),提取更强大的BEV功能并产生卓越的3D对象检测。范围感知的注意力(RAA)卷曲显着改善了近距离的特征提取。此外,我们提出了一种新的辅助损耗,用于密度估计,以进一步增强覆盖物体的Raanet的检测精度。值得注意的是,我们提出的RAA卷积轻量级,并兼容,以集成到用于BEV检测的任何CNN架构中。 Nuscenes DataSet上的广泛实验表明,我们的提出方法优于基于LIDAR的3D对象检测的最先进的方法,具有16 Hz的实时推断速度,为LITE版本为22 Hz。该代码在匿名GitHub存储库HTTPS://github.com/Anonymous0522 / ange上公开提供。
translated by 谷歌翻译
Computer vision applications in intelligent transportation systems (ITS) and autonomous driving (AD) have gravitated towards deep neural network architectures in recent years. While performance seems to be improving on benchmark datasets, many real-world challenges are yet to be adequately considered in research. This paper conducted an extensive literature review on the applications of computer vision in ITS and AD, and discusses challenges related to data, models, and complex urban environments. The data challenges are associated with the collection and labeling of training data and its relevance to real world conditions, bias inherent in datasets, the high volume of data needed to be processed, and privacy concerns. Deep learning (DL) models are commonly too complex for real-time processing on embedded hardware, lack explainability and generalizability, and are hard to test in real-world settings. Complex urban traffic environments have irregular lighting and occlusions, and surveillance cameras can be mounted at a variety of angles, gather dirt, shake in the wind, while the traffic conditions are highly heterogeneous, with violation of rules and complex interactions in crowded scenarios. Some representative applications that suffer from these problems are traffic flow estimation, congestion detection, autonomous driving perception, vehicle interaction, and edge computing for practical deployment. The possible ways of dealing with the challenges are also explored while prioritizing practical deployment.
translated by 谷歌翻译
Datasets drive vision progress, yet existing driving datasets are impoverished in terms of visual content and supported tasks to study multitask learning for autonomous driving. Researchers are usually constrained to study a small set of problems on one dataset, while real-world computer vision applications require performing tasks of various complexities. We construct BDD100K 1 , the largest driving video dataset with 100K videos and 10 tasks to evaluate the exciting progress of image recognition algorithms on autonomous driving. The dataset possesses geographic, environmental, and weather diversity, which is useful for training models that are less likely to be surprised by new conditions. Based on this diverse dataset, we build a benchmark for heterogeneous multitask learning and study how to solve the tasks together. Our experiments show that special training strategies are needed for existing models to perform such heterogeneous tasks. BDD100K opens the door for future studies in this important venue.
translated by 谷歌翻译
许多开放世界应用程序需要检测新的对象,但最先进的对象检测和实例分段网络在此任务中不屈服。关键问题在于他们假设没有任何注释的地区应被抑制为否定,这教导了将未经讨犯的对象视为背景的模型。为了解决这个问题,我们提出了一个简单但令人惊讶的强大的数据增强和培训方案,我们呼唤学习来检测每件事(LDET)。为避免抑制隐藏的对象,背景对象可见但未标记,我们粘贴在从原始图像的小区域采样的背景图像上粘贴带有的注释对象。由于仅对这种综合增强的图像培训遭受域名,我们将培训与培训分为两部分:1)培训区域分类和回归头在增强图像上,2)在原始图像上训练掩模头。通过这种方式,模型不学习将隐藏对象作为背景分类,同时概括到真实图像。 LDET导致开放式世界实例分割任务中的许多数据集的重大改进,表现出CoCo上的交叉类别概括的基线,以及对UVO和城市的交叉数据集评估。
translated by 谷歌翻译
在过去的十年中,多任务学习方法在解决全景驱动感知问题方面取得了令人鼓舞的结果,提供了高精度和高效效率。在为实时自动驾驶系统设计网络时,它已成为流行的范式,在该系统中,计算资源受到限制。本文提出了一个有效,有效的多任务学习网络,以同时执行交通对象检测,可驱动的道路区域细分和车道检测的任务。我们的模型以挑战性的BDD100K数据集的准确性和速度来实现新的最先进(SOTA)性能。特别是,与先前的SOTA模型相比,推理时间减少了一半。代码将在不久的将来发布。
translated by 谷歌翻译
Building instance segmentation models that are dataefficient and can handle rare object categories is an important challenge in computer vision. Leveraging data augmentations is a promising direction towards addressing this challenge. Here, we perform a systematic study of the Copy-Paste augmentation (e.g., [13,12]) for instance segmentation where we randomly paste objects onto an image. Prior studies on Copy-Paste relied on modeling the surrounding visual context for pasting the objects. However, we find that the simple mechanism of pasting objects randomly is good enough and can provide solid gains on top of strong baselines. Furthermore, we show Copy-Paste is additive with semi-supervised methods that leverage extra data through pseudo labeling (e.g. self-training). On COCO instance segmentation, we achieve 49.1 mask AP and 57.3 box AP, an improvement of +0.6 mask AP and +1.5 box AP over the previous state-of-the-art. We further demonstrate that Copy-Paste can lead to significant improvements on the LVIS benchmark. Our baseline model outperforms the LVIS 2020 Challenge winning entry by +3.6 mask AP on rare categories.
translated by 谷歌翻译
随着深度卷积神经网络的兴起,对象检测在过去几年中取得了突出的进步。但是,这种繁荣无法掩盖小物体检测(SOD)的不令人满意的情况,这是计算机视觉中臭名昭著的挑战性任务之一,这是由于视觉外观不佳和由小目标的内在结构引起的嘈杂表示。此外,用于基准小对象检测方法基准测试的大规模数据集仍然是瓶颈。在本文中,我们首先对小物体检测进行了详尽的审查。然后,为了催化SOD的发展,我们分别构建了两个大规模的小物体检测数据集(SODA),SODA-D和SODA-A,分别集中在驾驶和空中场景上。 SODA-D包括24704个高质量的交通图像和277596个9个类别的实例。对于苏打水,我们收集2510个高分辨率航空图像,并在9个类别上注释800203实例。众所周知,拟议的数据集是有史以来首次尝试使用针对多类SOD量身定制的大量注释实例进行大规模基准测试。最后,我们评估主流方法在苏打水上的性能。我们预计发布的基准可以促进SOD的发展,并产生该领域的更多突破。数据集和代码将很快在:\ url {https://shaunyuan22.github.io/soda}上。
translated by 谷歌翻译
使用3D激光点云数据的对象检测和语义分割需要昂贵的注释。我们提出了一种数据增强方法,该方法多次利用已经注释的数据。我们提出了一个重用真实数据的增强框架,自动在场景中找到合适的位置要增加,并明确地处理遮挡。由于使用真实数据,新插入的物体在增强中的扫描点维持了激光雷达的物理特征,例如强度和射线表。该管道证明在训练3D对象检测和语义分割的最佳模型中具有竞争力。新的增强为稀有和基本类别提供了显着的性能增长,尤其是在Kitti对象检测中“硬”行人级的平均精度增益为6.65%,或者2.14表示在Semantickitti细分挑战中获得的iOU在艺术状态下的增益。
translated by 谷歌翻译
Object detection typically assumes that training and test data are drawn from an identical distribution, which, however, does not always hold in practice. Such a distribution mismatch will lead to a significant performance drop. In this work, we aim to improve the cross-domain robustness of object detection. We tackle the domain shift on two levels: 1) the image-level shift, such as image style, illumination, etc., and 2) the instance-level shift, such as object appearance, size, etc. We build our approach based on the recent state-of-the-art Faster R-CNN model, and design two domain adaptation components, on image level and instance level, to reduce the domain discrepancy. The two domain adaptation components are based on H-divergence theory, and are implemented by learning a domain classifier in adversarial training manner. The domain classifiers on different levels are further reinforced with a consistency regularization to learn a domain-invariant region proposal network (RPN) in the Faster R-CNN model. We evaluate our newly proposed approach using multiple datasets including Cityscapes, KITTI, SIM10K, etc. The results demonstrate the effectiveness of our proposed approach for robust object detection in various domain shift scenarios.
translated by 谷歌翻译
域的适应区域对解决许多应用程序遇到的域移位问题发挥了重要作用。由于与现实测试方案中使用的目标数据相比,用于培训的源数据的分布之间的差异是由于培训源数据之间的差异而产生的。在本文中,我们引入了一种新型的多尺度域自适应Yolo(MS-Dayolo)框架,该框架在最近引入的Yolov4对象检测器的不同尺度上采用了多个域自适应路径和相应的域分类器。在我们的基线多尺度Dayolo框架的基础上,我们为域名适应网络(DAN)介绍了三个新颖的深度学习体系结构,它们生成了域,不变性功能。特别是,我们提出了渐进式功能减少(PFR),统一分类器(UC)和集成体系结构。我们使用流行的数据集训练和测试我们提出的DAN体系结构。当使用拟议的MS-Dayolo架构训练Yolov4时,我们的实验显示了对象检测性能的显着改善,并在对目标数据进行自动驾驶应用程序中进行测试时。此外,MS-Dayolo框架相对于更快的R-CNN解决方案,在提供可比的对象检测性能的同时,实现了实时速度的数量级改进。
translated by 谷歌翻译
作为一个常见的图像编辑操作,图像组成旨在将前景从一个图像切割并粘贴在另一个图像上,从而产生复合图像。但是,有许多问题可能使复合图像不现实。这些问题可以总结为前景和背景之间的不一致,包括外观不一致(例如,不兼容的照明),几何不一致(例如不合理的大小)和语义不一致(例如,不匹配的语义上下文)。先前的作品将图像组成任务分为多个子任务,其中每个子任务在一个或多个问题上目标。具体而言,对象放置旨在为前景找到合理的比例,位置和形状。图像混合旨在解决前景和背景之间的不自然边界。图像协调旨在调整前景的照明统计数据。影子生成旨在为前景产生合理的阴影。通过将所有上述努力放在一起,我们可以获取现实的复合图像。据我们所知,以前没有关于图像组成的调查。在本文中,我们对图像组成的子任务进行了全面的调查。对于每个子任务,我们总结了传统方法,基于深度学习的方法,数据集和评估。我们还指出了每个子任务中现有方法的局限性以及整个图像组成任务的问题。图像组合的数据集和代码在https://github.com/bcmi/awesome-image-composition上进行了总结。
translated by 谷歌翻译
在计算机视觉中,构建实例检测模型并可以处理稀有对象类别是一个重要的挑战。但是,数据收集方法和指标缺乏对使用神经网络应用实际场景应用的研究。在这里,我们对对象遮挡数据收集和增强方法进行系统研究,在该方法中,我们模仿目标场景中的对象遮挡关系。但是,我们发现对象阻塞的简单机制足够好,并且可以在添加新类别的实际场景中提供可接受的准确性。我们幻想的是,只有数百个类别的50万培训数据集中添加15张新类别的图像,可以在看不见的测试数据集中提供这个新类别95%的准确性,其中包括数千张此类别的图像。
translated by 谷歌翻译
Pedestrian safety is one primary concern in autonomous driving. The under-representation of vulnerable groups in today's pedestrian datasets points to an urgent need for a dataset of vulnerable road users. In this paper, we first introduce a new vulnerable pedestrian detection dataset, BG Vulnerable Pedestrian (BGVP) dataset to help train well-rounded models and thus induce research to increase the efficacy of vulnerable pedestrian detection. The dataset includes four classes, i.e., Children Without Disability, Elderly without Disability, With Disability, and Non-Vulnerable. This dataset consists of images collected from the public domain and manually-annotated bounding boxes. In addition, on the proposed dataset, we have trained and tested five state-of-the-art object detection models, i.e., YOLOv4, YOLOv5, YOLOX, Faster R-CNN, and EfficientDet. Our results indicate that YOLOX and YOLOv4 perform the best on our dataset, YOLOv4 scoring 0.7999 and YOLOX scoring 0.7779 on the mAP 0.5 metric, while YOLOX outperforms YOLOv4 by 3.8 percent on the mAP 0.5:0.95 metric. Generally speaking, all five detectors do well predicting the With Disability class and perform poorly in the Elderly Without Disability class. YOLOX consistently outperforms all other detectors on the mAP (0.5:0.95) per class metric, obtaining 0.5644, 0.5242, 0.4781, and 0.6796 for Children Without Disability, Elderly Without Disability, Non-vulnerable, and With Disability, respectively. Our dataset and codes are available at https://github.com/devvansh1997/BGVP.
translated by 谷歌翻译
数据增强是改善深神经网络概括的必不可少的技术。大多数现有的图像域增强剂要么依赖几何和结构变换,要么应用不同种类的光度扭曲。在本文中,我们提出了一种有效的技术,可以通过将上下文有意义的知识注入场景中。我们通过语言接地(Semaug)进行对象检测的语义上有意义的图像增强方法首先计算出可以将其放置在图像中相关位置的语义上适当的新对象(问题和位置)。然后,它将这些对象嵌入其相关目标位置,从而促进对象实例分布的多样性。我们的方法允许介绍培训集中可能不存在的新对象实例和类别。此外,它不需要培训上下文网络的额外开销,因此可以轻松地将其添加到现有架构中。我们全面的评估集表明,所提出的方法在改善概括方面非常有效,而开销可以忽略不计。特别是,对于广泛的模型体系结构,我们的方法分别在Pascal VOC和COCO数据集上实现了约2-4%和〜1-2%的MAP改进。
translated by 谷歌翻译
我们引入了一种新型的自动驾驶汽车 - 一种自动推土机,有望以有效,健壮和安全的方式完成建筑工地任务。为了更好地处理推土机的路径规划并确保建筑工地的安全性,对象检测是感知任务中最关键的组成部分之一。在这项工作中,我们首先通过开车来收集建筑工地数据。然后,我们彻底分析数据以了解其分布。最后,对两个众所周知的对象检测模型进行了训练,他们的性能通过广泛的训练策略和超参数进行了基准测试。
translated by 谷歌翻译
在鸟眼中学习强大的表现(BEV),以进行感知任务,这是趋势和吸引行业和学术界的广泛关注。大多数自动驾驶算法的常规方法在正面或透视视图中执行检测,细分,跟踪等。随着传感器配置变得越来越复杂,从不同的传感器中集成了多源信息,并在统一视图中代表功能至关重要。 BEV感知继承了几个优势,因为代表BEV中的周围场景是直观和融合友好的。对于BEV中的代表对象,对于随后的模块,如计划和/或控制是最可取的。 BEV感知的核心问题在于(a)如何通过从透视视图到BEV来通过视图转换来重建丢失的3D信息; (b)如何在BEV网格中获取地面真理注释; (c)如何制定管道以合并来自不同来源和视图的特征; (d)如何适应和概括算法作为传感器配置在不同情况下各不相同。在这项调查中,我们回顾了有关BEV感知的最新工作,并对不同解决方案进行了深入的分析。此外,还描述了该行业的BEV方法的几种系统设计。此外,我们推出了一套完整的实用指南,以提高BEV感知任务的性能,包括相机,激光雷达和融合输入。最后,我们指出了该领域的未来研究指示。我们希望该报告能阐明社区,并鼓励对BEV感知的更多研究。我们保留一个活跃的存储库来收集最新的工作,并在https://github.com/openperceptionx/bevperception-survey-recipe上提供一包技巧的工具箱。
translated by 谷歌翻译
基于LIDAR的传感驱动器电流自主车辆。尽管进展迅速,但目前的激光雷达传感器在分辨率和成本方面仍然落后于传统彩色相机背后的二十年。对于自主驾驶,这意味着靠近传感器的大物体很容易可见,但远方或小物体仅包括一个测量或两个。这是一个问题,尤其是当这些对象结果驾驶危险时。另一方面,在车载RGB传感器中清晰可见这些相同的对象。在这项工作中,我们提出了一种将RGB传感器无缝熔化成基于LIDAR的3D识别方法。我们的方法采用一组2D检测来生成密集的3D虚拟点,以增加否则稀疏的3D点云。这些虚拟点自然地集成到任何基于标准的LIDAR的3D探测器以及常规激光雷达测量。由此产生的多模态检测器简单且有效。大规模NUSCENES数据集的实验结果表明,我们的框架通过显着的6.6地图改善了强大的中心点基线,并且优于竞争融合方法。代码和更多可视化可在https://tianweiy.github.io/mvp/上获得
translated by 谷歌翻译
具有丰富注释的高质量结构化数据是处理道路场景的智能车辆系统中的关键组件。但是,数据策展和注释需要大量投资并产生低多样性的情况。最近对合成数据的兴趣日益增长,提出了有关此类系统改进范围的问题,以及产生大量和变化的模拟数据所需的手动工作量。这项工作提出了一条合成数据生成管道,该管道利用现有数据集(如Nuscenes)来解决模拟数据集中存在的困难和域间隙。我们表明,使用现有数据集的注释和视觉提示,我们可以促进自动化的多模式数据生成,模仿具有高保真性的真实场景属性,以及以物理意义的方式使样本多样化的机制。我们通过提供定性和定量实验,并通过使用真实和合成数据来证明MIOU指标的改进,以实现CityScapes和Kitti-Step数据集的语义分割。所有相关代码和数据均在GitHub(https://github.com/shubham1810/trove_toolkit)上发布。
translated by 谷歌翻译
旨在促进现实世界,不断发展和可扩展的自主驾驶系统,我们展示了一个大规模数据集,用于通过从原始数据学习来标准化不同自我监督和半监督方法的评估,这是第一和最大的数据集到期。现有的自主驱动系统严重依赖于“完善”视觉感知模型(即,检测)使用广泛的注释数据培训,以确保安全性。然而,在部署强大的自动驾驶系统时,精致地标记所有情景和环境的实例(即夜,极端天气,城市)是不现实的。最近的自我监督和半监督学习的推进激励,希望通过协作利用大规模未标记的数据和少数标记数据来学习强大的检测模型。现有数据集只提供少量数据或涵盖具有完整注释的有限域,妨碍大规模预训练模型的探索。在这里,我们发布了一个大型2D自主/半监控的对象检测数据集,用于自动驾驶,名为SODA10M,其中包含1000万个未标记的图像和标有6个代表对象类别的20K图像。为了提高多样性,在不同天气条件下的27833个驾驶时间内收集图像,32个不同城市的时期和位置场景。我们提供广泛的实验和对现有的流行自主/半监督方法深度分析,并在自动驾驶范围内给出一些有趣的调查结果。实验表明,SODA10M可以作为不同的自我监督学习方法作为有前途的预训练数据集,这在微调驾驶域中的不同下游任务(即检测,语义/实例分段)进行微调时提供了卓越的性能。更多信息可以参考https://soda-2d.github.io。
translated by 谷歌翻译