Aerial view of test environment (b) Vision-based driving, view from onboard camera (c) Side view of vehicle Fig. 1. Conditional imitation learning allows an autonomous vehicle trained end-to-end to be directed by high-level commands. (a) We train and evaluate robotic vehicles in the physical world (top) and in simulated urban environments (bottom). (b) The vehicles drive based on video from a forward-facing onboard camera. At the time these images were taken, the vehicle was given the command "turn right at the next intersection". (c) The trained controller handles sensorimotor coordination (staying on the road, avoiding collisions) and follows the provided commands.
translated by 谷歌翻译
We introduce CARLA, an open-source simulator for autonomous driving research. CARLA has been developed from the ground up to support development, training, and validation of autonomous urban driving systems. In addition to open-source code and protocols, CARLA provides open digital assets (urban layouts, buildings, vehicles) that were created for this purpose and can be used freely. The simulation platform supports flexible specification of sensor suites and environmental conditions. We use CARLA to study the performance of three approaches to autonomous driving: a classic modular pipeline, an endto-end model trained via imitation learning, and an end-to-end model trained via reinforcement learning. The approaches are evaluated in controlled scenarios of increasing difficulty, and their performance is examined via metrics provided by CARLA, illustrating the platform's utility for autonomous driving research.
translated by 谷歌翻译
在城市环境中面对道路选项问题时,现有的仿制学习方法遭受了低效率和泛化能力。在本文中,我们提出了一种横摆引导的仿制学习方法,以提高端到端自主驾驶范式的道路选择性能,就利用培训样本和对不断变化的环境的适应性而言。具体地,偏航信息由导航图的轨迹提供。我们的端到端架构,偏航引导模仿学习与Resnet34注意(YILRATT),集成了Resnet34主干和注意机制,以获得准确的感知。它不需要高精度地图,并且在给定由消费级GPS接收器提供的偏航信息的情况下实现完全端到端的自主驱动。通过分析注意热图,我们可以揭示决策和场景感知之间的一些因果关系,特别是故障情况是由错误的感知引起的。我们在Carla 0.9.11模拟器中收集专家体验,并改善基准科尔2017和NOCRASH。实验结果表明,伊利拉特比SOTA CILRS的成功率较高26.27%。代码,数据集,基准和实验结果可以在https://github.com/yandong024/yaw-guiding -il.git找到
translated by 谷歌翻译
The last decade witnessed increasingly rapid progress in self-driving vehicle technology, mainly backed up by advances in the area of deep learning and artificial intelligence. The objective of this paper is to survey the current state-of-the-art on deep learning technologies used in autonomous driving. We start by presenting AI-based self-driving architectures, convolutional and recurrent neural networks, as well as the deep reinforcement learning paradigm. These methodologies form a base for the surveyed driving scene perception, path planning, behavior arbitration and motion control algorithms. We investigate both the modular perception-planning-action pipeline, where each module is built using deep learning methods, as well as End2End systems, which directly map sensory information to steering commands. Additionally, we tackle current challenges encountered in designing AI architectures for autonomous driving, such as their safety, training data sources and computational hardware. The comparison presented in this survey helps to gain insight into the strengths and limitations of deep learning and AI approaches for autonomous driving and assist with design choices. 1
translated by 谷歌翻译
当前的端到端自动驾驶方法要么基于计划的轨迹运行控制器,要么直接执行控制预测,这已经跨越了两条单独研究的研究线。本文看到了它们彼此的潜在相互利益,主动探讨了这两个发展良好的世界的结合。具体而言,我们的集成方法分别有两个用于轨迹计划和直接控制的分支。轨迹分支可以预测未来的轨迹,而控制分支则涉及一种新颖的多步预测方案,以便可以将当前动作与未来状态之间的关系进行推理。连接了两个分支,因此控制分支在每个时间步骤中从轨迹分支接收相应的指导。然后将来自两个分支的输出融合以实现互补的优势。我们的结果在闭环城市驾驶环境中进行了评估,并使用CARLA模拟器具有挑战性的情况。即使有了单眼相机的输入,建议的方法在官方Carla排行榜上排名第一$,超过了其他具有多个传感器或融合机制的复杂候选人。源代码和数据将在https://github.com/openperceptionx/tcp上公开提供。
translated by 谷歌翻译
With the development of deep representation learning, the domain of reinforcement learning (RL) has become a powerful learning framework now capable of learning complex policies in high dimensional environments. This review summarises deep reinforcement learning (DRL) algorithms and provides a taxonomy of automated driving tasks where (D)RL methods have been employed, while addressing key computational challenges in real world deployment of autonomous driving agents. It also delineates adjacent domains such as behavior cloning, imitation learning, inverse reinforcement learning that are related but are not classical RL algorithms. The role of simulators in training agents, methods to validate, test and robustify existing solutions in RL are discussed.
translated by 谷歌翻译
The feasibility of collecting a large amount of expert demonstrations has inspired growing research interests in learning-to-drive settings, where models learn by imitating the driving behaviour from experts. However, exclusively relying on imitation can limit agents' generalisability to novel scenarios that are outside the support of the training data. In this paper, we address this challenge by factorising the driving task, based on the intuition that modular architectures are more generalisable and more robust to changes in the environment compared to monolithic, end-to-end frameworks. Specifically, we draw inspiration from the trajectory forecasting community and reformulate the learning-to-drive task as obstacle-aware perception and grounding, distribution-aware goal prediction, and model-based planning. Firstly, we train the obstacle-aware perception module to extract salient representation of the visual context. Then, we learn a multi-modal goal distribution by performing conditional density-estimation using normalising flow. Finally, we ground candidate trajectory predictions road geometry, and plan the actions based on on vehicle dynamics. Under the CARLA simulator, we report state-of-the-art results on the CARNOVEL benchmark.
translated by 谷歌翻译
模仿学习是一种广泛使用的政策学习方法,它使智能代理能够从专家演示中获取复杂的技能。模仿学习算法的输入通常由当前的观察和历史观察组成,因为最近的观察结果可能不含足够的信息。图像观察尤其是这种情况,其中单个图像仅包含场景的一个视图,并且缺乏运动信息和对象阻塞。从理论上讲,为模仿学习代理提供多个观察将带来更好的性能。然而,令人惊讶的是,人们发现有时从观察史中模仿的表现比最近的观察结果差。在本文中,我们从神经网络角度的信息流中解释了这种现象。我们还提出了一种新颖的模仿学习神经网络体系结构,该架构不会因设计而遭受这个问题的困扰。此外,我们的方法缩放到高维图像观测值。最后,我们对两个广泛使用的模拟器Carla和Mujoco进行了基准测试,它成功地减轻了模仿问题并超过了现有的解决方案。
translated by 谷歌翻译
在典型的自主驾驶堆栈中,计划和控制系统代表了两个最关键的组件,其中传感器检索并通过感知算法处理的数据用于实施安全舒适的自动驾驶行为。特别是,计划模块可以预测自动驾驶汽车应遵循正确的高级操作的路径,而控制系统则执行一系列低级动作,控制转向角度,油门和制动器。在这项工作中,我们提出了一个无模型的深钢筋学习计划者培训一个可以预测加速度和转向角度的神经网络,从而获得了一个单个模块,可以使用自我自我的本地化和感知算法处理的数据来驱动车辆-驾车。特别是,在模拟中进行了全面训练的系统能够在模拟和帕尔马市现实世界中的无障碍环境中平稳驱动,证明该系统具有良好的概括能力,也可以驱动驱动在培训方案之外的那些部分。此外,为了将系统部署在真正的自动驾驶汽车上,并减少模拟和现实世界中的差距,我们还开发了一个由微小的神经网络表示的模块,能够在期间重现真正的车辆动态行为模拟的培训。
translated by 谷歌翻译
在自主驾驶场中,人类知识融合到深增强学习(DRL)通常基于在模拟环境中记录的人类示范。这限制了在现实世界交通中的概率和可行性。我们提出了一种两级DRL方法,从真实的人类驾驶中学习,实现优于纯DRL代理的性能。培训DRL代理商是在Carla的框架内完成了机器人操作系统(ROS)。对于评估,我们设计了不同的真实驾驶场景,可以将提出的两级DRL代理与纯DRL代理进行比较。在从人驾驶员中提取“良好”行为之后,例如在信号交叉口中的预期,该代理变得更有效,并且驱动更安全,这使得这种自主代理更适应人体机器人交互(HRI)流量。
translated by 谷歌翻译
强化学习(RL)已证明可以在各种任务中达到超级人类水平的表现。但是,与受监督的机器学习不同,将其推广到各种情况的学习策略仍然是现实世界中最具挑战性的问题之一。自主驾驶(AD)提供了一个多方面的实验领域,因为有必要在许多变化的道路布局和可能的交通情况大量分布中学习正确的行为,包括个人驾驶员个性和难以预测的交通事件。在本文中,我们根据可配置,灵活和性能的代码库为AD提出了一个具有挑战性的基准。我们的基准测试使用了随机场景生成器的目录,包括用于道路布局和交通变化的多种机制,不同的数值和视觉观察类型,不同的动作空间,不同的车辆模型,并允许在静态场景定义下使用。除了纯粹的算法见解外,我们面向应用程序的基准还可以更好地理解设计决策的影响,例如行动和观察空间对政策的普遍性。我们的基准旨在鼓励研究人员提出能够在各种情况下成功概括的解决方案,这是当前RL方法失败的任务。基准的代码可在https://github.com/seawee1/driver-dojo上获得。
translated by 谷歌翻译
在本文中,我们提出了一个系统,以培训不仅从自我车辆收集的经验,而且还观察到的所有车辆的经验。该系统使用其他代理的行为来创建更多样化的驾驶场景,而无需收集其他数据。从其他车辆学习的主要困难是没有传感器信息。我们使用一组监督任务来学习一个中间表示,这是对控制车辆的观点不变的。这不仅在训练时间提供了更丰富的信号,而且还可以在推断过程中进行更复杂的推理。了解所有车辆驾驶如何有助于预测测试时的行为,并避免碰撞。我们在闭环驾驶模拟中评估该系统。我们的系统的表现优于公共卡拉排行榜上的所有先前方法,较大的利润率将驾驶得分提高了25,路线完成率提高了24分。我们的方法赢得了2021年的卡拉自动驾驶挑战。代码和数据可在https://github.com/dotchen/lav上获得。
translated by 谷歌翻译
深度加强学习算法需要大型和多样化的数据集,以便学习基于感知的移动导航的成功策略。但是,通过单个机器人收集此类数据集可能会非常昂贵。使用多个不同的机器人平台收集数据可能不同的动态是一种更可扩展的大规模数据收集方法。但是深度加强学习算法如何利用这种异构数据集?在这项工作中,我们提出了一种具有分层集成模型(提示)的深增强学习算法。在培训时间,提示了解单独的感知和动态模型,并且在测试时间内,提示以分层方式集成了两个模型,并计划使用集成模型的操作。这种使用分层集成模型的规划方法允许算法在由各种不同平台收集的数据集上训练,同时尊重部署机器人的物理功能在测试时间。我们的移动导航实验表明,提示优于传统的等级政策和单源方法。
translated by 谷歌翻译
Imitation learning techniques aim to mimic human behavior in a given task. An agent (a learning machine) is trained to perform a task from demonstrations by learning a mapping between observations and actions. The idea of teaching by imitation has been around for many years, however, the field is gaining attention recently due to advances in computing and sensing as well as rising demand for intelligent applications. The paradigm of learning by imitation is gaining popularity because it facilitates teaching complex tasks with minimal expert knowledge of the tasks. Generic imitation learning methods could potentially reduce the problem of teaching a task to that of providing demonstrations; without the need for explicit programming or designing reward functions specific to the task. Modern sensors are able to collect and transmit high volumes of data rapidly, and processors with high computational power allow fast processing that maps the sensory data to actions in a timely manner. This opens the door for many potential AI applications that require real-time perception and reaction such as humanoid robots, self-driving vehicles, human computer interaction and computer games to name a few. However, specialized algorithms are needed to effectively and robustly learn models as learning by imitation poses its own set of challenges. In this paper, we survey imitation learning methods and present design options in different steps of the learning process. We introduce a background and motivation for the field as well as highlight challenges specific to the imitation problem. Methods for designing and evaluating imitation learning tasks are categorized and reviewed. Special attention is given to learning methods in robotics and games as these domains are the most popular in the literature and provide a wide array of problems and methodologies. We extensively discuss combining imitation learning approaches using different sources and methods, as well as incorporating other motion learning methods to enhance imitation. We also discuss the potential impact on industry, present major applications and highlight current and future research directions.
translated by 谷歌翻译
仿真是对机器人系统(例如自动驾驶汽车)进行扩展验证和验证的关键。尽管高保真物理和传感器模拟取得了进步,但在模拟道路使用者的现实行为方面仍然存在一个危险的差距。这是因为,与模拟物理和图形不同,设计人类行为的第一个原理模型通常是不可行的。在这项工作中,我们采用了一种数据驱动的方法,并提出了一种可以学会从现实世界驱动日志中产生流量行为的方法。该方法通过将交通仿真问题分解为高级意图推理和低级驾驶行为模仿,通过利用驾驶行为的双层层次结构来实现高样本效率和行为多样性。该方法还结合了一个计划模块,以获得稳定的长马行为。我们从经验上验证了我们的方法,即交通模拟(位)的双层模仿,并具有来自两个大规模驾驶数据集的场景,并表明位表明,在现实主义,多样性和长途稳定性方面可以达到平衡的交通模拟性能。我们还探索了评估行为现实主义的方法,并引入了一套评估指标以进行交通模拟。最后,作为我们的核心贡献的一部分,我们开发和开源一个软件工具,该工具将跨不同驱动数据集的数据格式统一,并将现有数据集将场景转换为交互式仿真环境。有关其他信息和视频,请参见https://sites.google.com/view/nvr-bits2022/home
translated by 谷歌翻译
在多机构动态交通情况下的自主驾驶具有挑战性:道路使用者的行为不确定,很难明确建模,并且自我车辆应与他们应用复杂的谈判技巧,例如屈服,合并和交付,以实现,以实现在各种环境中都有安全有效的驾驶。在这些复杂的动态场景中,传统的计划方法主要基于规则,并且通常会导致反应性甚至过于保守的行为。因此,他们需要乏味的人类努力来维持可行性。最近,基于深度学习的方法显示出令人鼓舞的结果,具有更好的概括能力,但手工工程的工作较少。但是,它们要么是通过有监督的模仿学习(IL)来实施的,该学习遭受了数据集偏见和分配不匹配问题,要么接受了深入强化学习(DRL)的培训,但专注于一种特定的交通情况。在这项工作中,我们建议DQ-GAT实现可扩展和主动的自主驾驶,在这些驾驶中,基于图形注意力的网络用于隐式建模相互作用,并采用了深层Q学习来以无聊的方式训练网络端到端的网络。 。在高保真驾驶模拟器中进行的广泛实验表明,我们的方法比以前的基于学习的方法和传统的基于规则的方法获得了更高的成功率,并且在可见和看不见的情况下都可以更好地摆脱安全性和效率。此外,轨迹数据集的定性结果表明,我们所学的政策可以通过实时速度转移到现实世界中。演示视频可在https://caipeide.github.io/dq-gat/上找到。
translated by 谷歌翻译
数据驱动的模拟器承诺高数据效率进行驾驶策略学习。当用于建模相互作用时,这种数据效率变为瓶颈:小型基础数据集通常缺乏用于学习交互式驾驶的有趣和具有挑战性的边缘案例。我们通过提出使用绘制的ADO车辆学习强大的驾驶策略的仿真方法来解决这一挑战。因此,我们的方法可用于学习涉及多代理交互的策略,并允许通过最先进的策略学习方法进行培训。我们评估了驾驶中学习标准交互情景的方法。在广泛的实验中,我们的工作表明,由此产生的政策可以直接转移到全规模的自治车辆,而无需使用任何传统的SIM-to-Real传输技术,例如域随机化。
translated by 谷歌翻译
用于训练自动汽车的两种目前的方法是加强学习和模仿学习。本研究通过将监督模仿学习集成到强化学习中,在模拟和更小的现实世界环境中开发了一种新的学习方法和系统方法,使RL训练数据收集过程更有效和高效。通过组合这两种方法,所提出的研究成功利用了RL和IL方法的优点。首先,使用模仿学习将一个真正的迷你级机器人汽车组装并培训了6英尺的真实世界轨道。在此过程中,通过模仿人类专家驱动程序并手动记录使用Microsoft Airsim的API手动记录动作来控制迷你级机器人车辆以控制磁级机器人车辆。 331能够生成和收集准确的人类奖励训练样本。然后,使用加强学习在Microsoft Airsim模拟器中培训了一个代理,使用初始331奖励数据从模仿学习培训输入的初始331奖励数据。经过6小时的培训期后,迷你规模的机器人汽车能够在迷你级机器人汽车无法完成一个全圈,即使在30之后,迷你规模机器人汽车无法完成一个全圈小时培训纯RL培训。培训时间减少80%,新方法每小时产生更高的平均奖励。因此,新方法能够节省大量的培训时间,可用于加速自动驾驶中的RL的采用,这将有助于在应用于现实生活场景时长期产生更有效和更好的结果。关键词:加固学习(RL),仿制学习(IL),自主驾驶,人类驾驶数据,CNN
translated by 谷歌翻译
我们介绍了一个目标驱动的导航系统,以改善室内场景中的Fapless视觉导航。我们的方法在每次步骤中都将机器人和目标的多视图观察为输入,以提供将机器人移动到目标的一系列动作,而不依赖于运行时在运行时。通过优化包含三个关键设计的组合目标来了解该系统。首先,我们建议代理人在做出行动决定之前构建下一次观察。这是通过从专家演示中学习变分生成模块来实现的。然后,我们提出预测预先预测静态碰撞,作为辅助任务,以改善导航期间的安全性。此外,为了减轻终止动作预测的训练数据不平衡问题,我们还介绍了一个目标检查模块来区分与终止动作的增强导航策略。这三种建议的设计都有助于提高培训数据效率,静态冲突避免和导航泛化性能,从而产生了一种新颖的目标驱动的FLASES导航系统。通过对Turtlebot的实验,我们提供了证据表明我们的模型可以集成到机器人系统中并在现实世界中导航。视频和型号可以在补充材料中找到。
translated by 谷歌翻译
自动驾驶汽车是一项不断发展的技术,旨在通过自动操作从车道变更到超车来提高安全性,可访问性,效率和便利性。超车是自动驾驶汽车最具挑战性的操作之一,当前的自动超车技术仅限于简单情况。本文研究了如何通过允许动作流产来提高自主超车的安全性。我们提出了一个基于深层Q网络的决策过程,以确定是否以及何时需要中止超车的操作。拟议的算法在与交通情况不同的模拟中进行了经验评估,这表明所提出的方法可以改善超车手动过程中的安全性。此外,使用自动班车Iseauto在现实世界实验中证明了该方法。
translated by 谷歌翻译