智能论文笔记

Real-time Full-stack Traffic Scene Perception for Autonomous Driving with Roadside Cameras

Zhengxia Zou , Rusheng Zhang , Shengyin Shen , Gaurav Pandey , Punarjay Chakravarty , Armin Parchami , Henry X. Liu

分类：计算机视觉 | 机器人

2022-06-20

我们为路边摄像机提出了一个针对交通现场的新颖务实框架。提出的框架涵盖了基础架构辅助自动驾驶的路边知觉管道的全堆，包括对象检测，对象定位，对象跟踪和多相机信息融合。与以前的基于视觉的感知框架依赖于深度偏移或训练中的3D注释不同，我们采用模块化解耦设计并引入基于具有里程碑意义的3D本地化方法，在此方法可以很好地解耦，以便可以轻松地训练该模型仅基于2D注释。所提出的框架适用于带有针孔或鱼眼镜的光相机或热摄像机。我们的框架部署在位于Ellsworth Rd的两车道回旋处。和美国密歇根州安阿伯市的State St.，提供7x24实时交通流量监测和高精度车辆轨迹提取。整个系统在低功率边缘计算设备上有效地运行，全部端到端延迟小于20ms。

translated by 谷歌翻译

Monocular 3D Vehicle Detection Using Uncalibrated Traffic Cameras through Homography

Minghan Zhu , Songan Zhang , Yuanxin Zhong , Pingping Lu , Huei Peng , John Lenneman

分类：计算机视觉

2021-03-29

本文提出了一种从单个交通相机提取3D世界中车辆的位置和姿势的方法。从驾驶员的角度来看，大多数先前的单眼3D车辆检测算法集中在车辆上的摄像机上，并假定了已知的内在和外在校准。相反，本文侧重于使用未校准单眼交通摄像头的相同任务。我们观察到，道路平面和图像平面之间的相同特法对于3D车辆检测和该任务的数据合成至关重要，并且可以在没有相机内在和外部的情况下估计同字。通过在逆透视映射中产生的鸟瞰图（BEV）图像中估计旋转边界盒（R箱）进行3D车辆检测。我们提出了一个名为Daileed R-Box的新的回归目标和双视网架构，该架构促进了翘曲的BEV图像上的检测精度。实验表明，尽管在训练期间没有看到它们的成像，所提出的方法可以推广到新的相机和环境设置。

translated by 谷歌翻译

SHLE: Devices Tracking and Depth Filtering for Stereo-based Height Limit Estimation

Zhaoxin Fan , Kaixing Yang , Min Zhang , Zhenbo Song , Hongyan Liu , Jun He

分类：计算机视觉

2022-12-22

Recently, over-height vehicle strike frequently occurs, causing great economic cost and serious safety problems. Hence, an alert system which can accurately discover any possible height limiting devices in advance is necessary to be employed in modern large or medium sized cars, such as touring cars. Detecting and estimating the height limiting devices act as the key point of a successful height limit alert system. Though there are some works research height limit estimation, existing methods are either too computational expensive or not accurate enough. In this paper, we propose a novel stereo-based pipeline named SHLE for height limit estimation. Our SHLE pipeline consists of two stages. In stage 1, a novel devices detection and tracking scheme is introduced, which accurately locate the height limit devices in the left or right image. Then, in stage 2, the depth is temporally measured, extracted and filtered to calculate the height limit device. To benchmark the height limit estimation task, we build a large-scale dataset named "Disparity Height", where stereo images, pre-computed disparities and ground-truth height limit annotations are provided. We conducted extensive experiments on "Disparity Height" and the results show that SHLE achieves an average error below than 10cm though the car is 70m away from the devices. Our method also outperforms all compared baselines and achieves state-of-the-art performance. Code is available at https://github.com/Yang-Kaixing/SHLE.

translated by 谷歌翻译

Vision-Based Environmental Perception for Autonomous Driving

Fei Liu , Zihao Lu , Xianke Lin

分类：计算机视觉

2022-12-22

Visual perception plays an important role in autonomous driving. One of the primary tasks is object detection and identification. Since the vision sensor is rich in color and texture information, it can quickly and accurately identify various road information. The commonly used technique is based on extracting and calculating various features of the image. The recent development of deep learning-based method has better reliability and processing speed and has a greater advantage in recognizing complex elements. For depth estimation, vision sensor is also used for ranging due to their small size and low cost. Monocular camera uses image data from a single viewpoint as input to estimate object depth. In contrast, stereo vision is based on parallax and matching feature points of different views, and the application of deep learning also further improves the accuracy. In addition, Simultaneous Location and Mapping (SLAM) can establish a model of the road environment, thus helping the vehicle perceive the surrounding environment and complete the tasks. In this paper, we introduce and compare various methods of object detection and identification, then explain the development of depth estimation and compare various methods based on monocular, stereo, and RDBG sensors, next review and compare various methods of SLAM, and finally summarize the current problems and present the future development trends of vision technologies.

translated by 谷歌翻译

A Survey and Framework of Cooperative Perception: From Heterogeneous Singleton to Hierarchical Cooperation

Zhengwei Bai , Guoyuan Wu , Matthew J. Barth , Yongkang Liu , Emrah Akin Sisbot , Kentaro Oguchi , Zhitong Huang

分类：计算机视觉

2022-08-22

感知环境是实现合作驾驶自动化（CDA）的最基本关键之一，该关键被认为是解决当代运输系统的安全性，流动性和可持续性问题的革命性解决方案。尽管目前在计算机视觉的物体感知领域正在发生前所未有的进化，但由于不可避免的物理遮挡和单辆车的接受程度有限，最先进的感知方法仍在与复杂的现实世界流量环境中挣扎系统。基于多个空间分离的感知节点，合作感知（CP）诞生是为了解锁驱动自动化的感知瓶颈。在本文中，我们全面审查和分析了CP的研究进度，据我们所知，这是第一次提出统一的CP框架。审查了基于不同类型的传感器的CP系统的体系结构和分类学，以显示对CP系统的工作流程和不同结构的高级描述。对节点结构，传感器模式和融合方案进行了审查和分析，并使用全面的文献进行了详细的解释。提出了分层CP框架，然后对现有数据集和模拟器进行审查，以勾勒出CP的整体景观。讨论重点介绍了当前的机会，开放挑战和预期的未来趋势。

translated by 谷歌翻译

Traffic-Net: 3D Traffic Monitoring Using a Single Camera

Mahdi Rezaei , Mohsen Azarmi , Farzam Mohammad Pour Mir

分类：计算机视觉 | 人工智能 | 机器学习

2021-09-19

计算机视觉在智能运输系统（ITS）和交通监视中发挥了重要作用。除了快速增长的自动化车辆和拥挤的城市外，通过实施深层神经网络的实施，可以使用视频监视基础架构进行自动和高级交通管理系统（ATM）。在这项研究中，我们为实时交通监控提供了一个实用的平台，包括3D车辆/行人检测，速度检测，轨迹估算，拥塞检测以及监视车辆和行人的相互作用，都使用单个CCTV交通摄像头。我们适应了定制的Yolov5深神经网络模型，用于车辆/行人检测和增强的排序跟踪算法。还开发了基于混合卫星的基于混合卫星的逆透视图（SG-IPM）方法，用于摄像机自动校准，从而导致准确的3D对象检测和可视化。我们还根据短期和长期的时间视频数据流开发了层次结构的交通建模解决方案，以了解脆弱道路使用者的交通流量，瓶颈和危险景点。关于现实世界情景和与最先进的比较的几项实验是使用各种交通监控数据集进行的，包括从高速公路，交叉路口和城市地区收集的MIO-TCD，UA-DETRAC和GRAM-RTM，在不同的照明和城市地区天气状况。

translated by 谷歌翻译

3D Visual Tracking Framework with Deep Learning for Asteroid Exploration

Dong Zhou , Gunaghui Sun , Xiaopeng Hong

分类：计算机视觉

2021-11-21

3D视觉跟踪对深度空间勘探程序非常重要，这可以保证航天器灵活地接近目标。在本文中，我们专注于3D跟踪的学习准确和实时方法。考虑到这一主题几乎没有公共数据集，提出了一个新的大规模3D小行星跟踪数据集，包括双目视频序列，深度图和各种各样的小行星的点云，具有各种形状和纹理。从仿真平台的电源和便利性中受益，将自动生成所有2D和3D注释。同时，我们提出了一个基于深度学习的3D跟踪框架，名称为Track3D，其涉及2D单眼跟踪器和新型轻量级Amodal轴对齐边界箱网络，A3BoxNet。评估结果表明，与基线算法相比，Track3D以准确性和精度实现了最先进的3D跟踪性能。此外，我们的框架具有良好的概括能力，可提供2D单眼跟踪性能。

translated by 谷歌翻译

Near-field Perception for Low-Speed Vehicle Automation using Surround-view Fisheye Cameras

Ciaran Eising , Jonathan Horgan , Senthil Yogamani

分类：计算机视觉 | 机器人

2021-03-31

摄像机是自动化驱动系统中的主要传感器。它们提供高信息密度，并对检测为人类视野提供的道路基础设施线索最优。环绕式摄像机系统通常包括具有190 {\ DEG} +视野的四个鱼眼相机，覆盖在车辆周围的整个360 {\ DEG}集中在近场传感上。它们是低速，高精度和近距离传感应用的主要传感器，如自动停车，交通堵塞援助和低速应急制动。在这项工作中，我们提供了对这种视觉系统的详细调查，在可以分解为四个模块化组件的架构中，设置调查即可识别，重建，重建和重组。我们共同称之为4R架构。我们讨论每个组件如何完成特定方面，并提供一个位置论证，即它们可以协同组织以形成用于低速自动化的完整感知系统。我们通过呈现来自以前的作品的结果，并通过向此类系统提出架构提案来支持此参数。定性结果在视频中呈现在HTTPS://youtu.be/ae8bcof7777uy中。

translated by 谷歌翻译

Cyber Mobility Mirror for Enabling Cooperative Driving Automation in Mixed Traffic: A Co-Simulation Platform

Zhengwei Bai , Guoyuan Wu , Xuewei Qi , Yongkang Liu , Kentaro Oguchi , Matthew J. Barth

分类：计算机视觉

2022-01-24

具有自动化和连通性的赋予，连接和自动化的车辆旨在成为合作驾驶自动化的革命性推动者。然而，骑士需要对周围环境的高保真感知信息，但从各种车载传感器以及车辆到所有的通信（v2x）通信中都可以昂贵。因此，通过具有成本效益的平台基于高保真传感器的真实感知信息对于启用与CDA相关的研究（例如合作决策或控制）至关重要。大多数针对CAVS的最先进的交通模拟研究都通过直接呼吁对象的内在属性来依赖情况 - 意识信息，这阻碍了CDA算法评估的可靠性和保真度。在这项研究中，\ textit {网络移动镜（CMM）}共模拟平台设计用于通过提供真实感知信息来启用CDA。 \ textit {cmm}共模拟平台可以通过高保真传感器感知系统和具有实时重建系统的网络世界模仿现实世界。具体而言，现实世界的模拟器主要负责模拟交通环境，传感器以及真实的感知过程。 Mirror-World Simulator负责重建对象，并将其信息作为模拟器的内在属性，以支持CDA算法的开发和评估。为了说明拟议的共模拟平台的功能，将基于路边的激光雷达的车辆感知系统原型作为研究案例。特定的流量环境和CDA任务是为实验设计的，其结果得到了证明和分析以显示平台的性能。

translated by 谷歌翻译

Providentia -- A Large-Scale Sensor System for the Assistance of Autonomous Vehicles and Its Evaluation

Annkathrin Krämmer , Christoph Schöller , Dhiraj Gulati , Venkatnarayanan Lakshminarasimhan , Franz Kurz , Dominik Rosenbaum , Claus Lenz , Alois Knoll

分类：机器人 | 计算机视觉

2019-06-16

自主车辆的环境感知受其物理传感器范围和算法性能的限制，以及通过降低其对正在进行的交通状况的理解的闭塞。这不仅构成了对安全和限制驾驶速度的重大威胁，而且它也可能导致不方便的动作。智能基础设施系统可以帮助缓解这些问题。智能基础设施系统可以通过在当前交通情况的数字模型的形式提供关于其周围环境的额外详细信息，填补了车辆的感知中的差距并扩展了其视野。数字双胞胎。然而，这种系统的详细描述和工作原型表明其可行性稀缺。在本文中，我们提出了一种硬件和软件架构，可实现这样一个可靠的智能基础架构系统。我们在现实世界中实施了该系统，并展示了它能够创建一个准确的延伸高速公路延伸的数字双胞胎，从而提高了自主车辆超越其车载传感器的极限的感知。此外，我们通过使用空中图像和地球观测方法来评估数字双胞胎的准确性和可靠性，用于产生地面真理数据。

translated by 谷歌翻译

Semantic Visual Simultaneous Localization and Mapping: A Survey

Kaiqi Chen , Jianhua Zhang , Jialing Liu , Qiyi Tong , Ruyu Liu , Shengyong Chen

分类：计算机视觉

2022-09-14

视觉同时定位和映射（VSLAM）在计算机视觉和机器人社区中取得了巨大进展，并已成功用于许多领域，例如自主机器人导航和AR/VR。但是，VSLAM无法在动态和复杂的环境中实现良好的定位。许多出版物报告说，通过与VSLAM结合语义信息，语义VSLAM系统具有近年来解决上述问题的能力。然而，尚无关于语义VSLAM的全面调查。为了填补空白，本文首先回顾了语义VSLAM的发展，并明确着眼于其优势和差异。其次，我们探讨了语义VSLAM的三个主要问题：语义信息的提取和关联，语义信息的应用以及语义VSLAM的优势。然后，我们收集和分析已广泛用于语义VSLAM系统的当前最新SLAM数据集。最后，我们讨论未来的方向，该方向将为语义VSLAM的未来发展提供蓝图。

translated by 谷歌翻译

Visual and Object Geo-localization: A Comprehensive Survey

Daniel Wilson , Xiaohan Zhang , Waqas Sultani , Safwan Wshah

分类：计算机视觉

2021-12-30

地理定位的概念是指确定地球上的某些“实体”的位置的过程，通常使用全球定位系统（GPS）坐标。感兴趣的实体可以是图像，图像序列，视频，卫星图像，甚至图像中可见的物体。由于GPS标记媒体的大规模数据集由于智能手机和互联网而迅速变得可用，而深入学习已经上升以提高机器学习模型的性能能力，因此由于其显着影响而出现了视觉和对象地理定位的领域广泛的应用，如增强现实，机器人，自驾驶车辆，道路维护和3D重建。本文提供了对涉及图像的地理定位的全面调查，其涉及从捕获图像（图像地理定位）或图像内的地理定位对象（对象地理定位）的地理定位的综合调查。我们将提供深入的研究，包括流行算法的摘要，对所提出的数据集的描述以及性能结果的分析来说明每个字段的当前状态。

translated by 谷歌翻译

Argoverse: 3D Tracking and Forecasting with Rich Maps

Ming-Fang Chang , John Lambert , Patsorn Sangkloy , Jagjeet Singh , Slawomir Bak , Andrew Hartnett , De Wang , Peter Carr , Simon Lucey , Deva Ramanan

分类：

2019-11-06

Figure 1: We introduce datasets for 3D tracking and motion forecasting with rich maps for autonomous driving. Our 3D tracking dataset contains sequences of LiDAR measurements, 360 • RGB video, front-facing stereo (middle-right), and 6-dof localization. All sequences are aligned with maps containing lane center lines (magenta), driveable region (orange), and ground height. Sequences are annotated with 3D cuboid tracks (green). A wider map view is shown in the bottom-right.

translated by 谷歌翻译

Deep Learning based Computer Vision Methods for Complex Traffic Environments Perception: A Review

Talha Azfar , Jinlong Li , Hongkai Yu , Ruey Long Cheu , Yisheng Lv , Ruimin Ke

分类：计算机视觉

2022-11-09

Computer vision applications in intelligent transportation systems (ITS) and autonomous driving (AD) have gravitated towards deep neural network architectures in recent years. While performance seems to be improving on benchmark datasets, many real-world challenges are yet to be adequately considered in research. This paper conducted an extensive literature review on the applications of computer vision in ITS and AD, and discusses challenges related to data, models, and complex urban environments. The data challenges are associated with the collection and labeling of training data and its relevance to real world conditions, bias inherent in datasets, the high volume of data needed to be processed, and privacy concerns. Deep learning (DL) models are commonly too complex for real-time processing on embedded hardware, lack explainability and generalizability, and are hard to test in real-world settings. Complex urban traffic environments have irregular lighting and occlusions, and surveillance cameras can be mounted at a variety of angles, gather dirt, shake in the wind, while the traffic conditions are highly heterogeneous, with violation of rules and complex interactions in crowded scenarios. Some representative applications that suffer from these problems are traffic flow estimation, congestion detection, autonomous driving perception, vehicle interaction, and edge computing for practical deployment. The possible ways of dealing with the challenges are also explored while prioritizing practical deployment.

translated by 谷歌翻译

An Online Learning System for Wireless Charging Alignment using Surround-view Fisheye Cameras

Ashok Dahal , Varun Ravi Kumar , Senthil Yogamani , Ciaran Eising

分类：计算机视觉

2021-05-26

电动汽车越来越普遍，具有电感折射板被认为是充电电动车辆的方便和有效的手段。然而，驾驶员通常较差，使车辆对准到必要的电感充电的必要精度时，使得两个充电板的自动对准是所需的。与车辆队列的电气化平行，利用环保相机系统的自动停车系统越来越受欢迎。在这项工作中，我们提出了一种基于环绕式摄像机架构的系统来检测，本地化，并自动将车辆与电感充电板对齐。费用板的视觉设计不标准化，并不一定事先已知。因此，依赖离线培训的系统将在某些情况下失败。因此，我们提出了一种在线学习方法，在手动将车辆用ChartionPad手动对准时，利用驾驶员的行动，并将其与语义分割和深度的弱监督相结合，以学习分类器以自动注释视频中的电荷工作以进行进一步培训。通过这种方式，当面对先前的未持代币支付板时，驾驶员只需手动对准车辆即可。由于电荷板在地上平坦，从远处检测到它并不容易。因此，我们建议使用Visual Slam管道来学习相对于ChiftPad的地标，以实现从更大范围的对齐。我们展示了自动化车辆上的工作系统，如视频HTTPS://youtu.BE/_CLCMKW4UYO所示。为了鼓励进一步研究，我们将分享在这项工作中使用的费用数据集。

translated by 谷歌翻译

Scalability in Perception for Autonomous Driving: Waymo Open Dataset

Pei Sun , Henrik Kretzschmar , Xerxes Dotiwalla , Aurelien Chouard , Vijaysai Patnaik , Paul Tsui , James Guo , Yin Zhou , Yuning Chai , Benjamin Caine

分类：

2019-12-10

The research community has increasing interest in autonomous driving research, despite the resource intensity of obtaining representative real world data. Existing selfdriving datasets are limited in the scale and variation of the environments they capture, even though generalization within and between operating regions is crucial to the overall viability of the technology. In an effort to help align the research community's contributions with real-world selfdriving problems, we introduce a new large-scale, high quality, diverse dataset. Our new dataset consists of 1150 scenes that each span 20 seconds, consisting of well synchronized and calibrated high quality LiDAR and camera data captured across a range of urban and suburban geographies. It is 15x more diverse than the largest cam-era+LiDAR dataset available based on our proposed geographical coverage metric. We exhaustively annotated this data with 2D (camera image) and 3D (LiDAR) bounding boxes, with consistent identifiers across frames. Finally, we provide strong baselines for 2D as well as 3D detection and tracking tasks. We further study the effects of dataset size and generalization across geographies on 3D detection methods. Find data, code and more up-to-date information at http://www.waymo.com/open.

translated by 谷歌翻译

Vision-Centric BEV Perception: A Survey

Yuexin Ma , Tai Wang , Xuyang Bai , Huitong Yang , Yuenan Hou , Yaming Wang , Yu Qiao , Ruigang Yang , Dinesh Manocha , Xinge Zhu

分类：计算机视觉

2022-08-04

以视觉为中心的BEV感知由于其固有的优点，最近受到行业和学术界的关注，包括展示世界自然代表和融合友好。随着深度学习的快速发展，已经提出了许多方法来解决以视觉为中心的BEV感知。但是，最近没有针对这个小说和不断发展的研究领域的调查。为了刺激其未来的研究，本文对以视觉为中心的BEV感知及其扩展进行了全面调查。它收集并组织了最近的知识，并对常用算法进行了系统的综述和摘要。它还为几项BEV感知任务提供了深入的分析和比较结果，从而促进了未来作品的比较并激发了未来的研究方向。此外，还讨论了经验实现细节并证明有利于相关算法的开发。

translated by 谷歌翻译

V2X-Sim: Multi-Agent Collaborative Perception Dataset and Benchmark for Autonomous Driving

Yiming Li , Dekun Ma , Ziyan An , Zixun Wang , Yiqi Zhong , Siheng Chen , Chen Feng

分类：计算机视觉

2022-02-17

车辆到所有（V2X）通信技术使车辆与附近环境中许多其他实体之间的协作可以从根本上改善自动驾驶的感知系统。但是，缺乏公共数据集极大地限制了协作感知的研究进度。为了填补这一空白，我们提出了V2X-SIM，这是一个针对V2X辅助自动驾驶的全面模拟多代理感知数据集。 V2X-SIM提供：（1）\ hl {Multi-Agent}传感器记录来自路边单元（RSU）和多种能够协作感知的车辆，（2）多模式传感器流，可促进多模式感知和多模式感知和（3）支持各种感知任务的各种基础真理。同时，我们在三个任务（包括检测，跟踪和细分）上为最先进的协作感知算法提供了一个开源测试台，并为最先进的协作感知算法提供了基准。 V2X-SIM试图在现实数据集广泛使用之前刺激自动驾驶的协作感知研究。我们的数据集和代码可在\ url {https://ai4ce.github.io/v2x-sim/}上获得。

translated by 谷歌翻译

Delving into the Devils of Bird's-eye-view Perception: A Review, Evaluation and Recipe

Hongyang Li , Chonghao Sima , Jifeng Dai , Wenhai Wang , Lewei Lu , Huijie Wang , Enze Xie , Zhiqi Li , Hanming Deng , Hao Tian

分类：计算机视觉 | 机器学习 | 机器人

2022-09-12

在鸟眼中学习强大的表现（BEV），以进行感知任务，这是趋势和吸引行业和学术界的广泛关注。大多数自动驾驶算法的常规方法在正面或透视视图中执行检测，细分，跟踪等。随着传感器配置变得越来越复杂，从不同的传感器中集成了多源信息，并在统一视图中代表功能至关重要。 BEV感知继承了几个优势，因为代表BEV中的周围场景是直观和融合友好的。对于BEV中的代表对象，对于随后的模块，如计划和/或控制是最可取的。 BEV感知的核心问题在于（a）如何通过从透视视图到BEV来通过视图转换来重建丢失的3D信息；（b）如何在BEV网格中获取地面真理注释；（c）如何制定管道以合并来自不同来源和视图的特征；（d）如何适应和概括算法作为传感器配置在不同情况下各不相同。在这项调查中，我们回顾了有关BEV感知的最新工作，并对不同解决方案进行了深入的分析。此外，还描述了该行业的BEV方法的几种系统设计。此外，我们推出了一套完整的实用指南，以提高BEV感知任务的性能，包括相机，激光雷达和融合输入。最后，我们指出了该领域的未来研究指示。我们希望该报告能阐明社区，并鼓励对BEV感知的更多研究。我们保留一个活跃的存储库来收集最新的工作，并在https://github.com/openperceptionx/bevperception-survey-recipe上提供一包技巧的工具箱。

translated by 谷歌翻译

Autonomous Driving in Adverse Weather Conditions: A Survey

Yuxiao Zhang , Alexander Carballo , Hanting Yang , Kazuya Takeda

分类：机器人

2021-12-16

自动化驾驶系统（广告）开辟了汽车行业的新领域，为未来的运输提供了更高的效率和舒适体验的新可能性。然而，在恶劣天气条件下的自主驾驶已经存在，使自动车辆（AVS）长时间保持自主车辆（AVS）或更高的自主权。本文评估了天气在分析和统计方式中为广告传感器带来的影响和挑战，并对恶劣天气条件进行了解决方案。彻底报道了关于对每种天气的感知增强的最先进技术。外部辅助解决方案如V2X技术，当前可用的数据集，模拟器和天气腔室的实验设施中的天气条件覆盖范围明显。通过指出各种主要天气问题，自主驾驶场目前正在面临，近年来审查硬件和计算机科学解决方案，这项调查概述了在不利的天气驾驶条件方面的障碍和方向的障碍和方向。

translated by 谷歌翻译