轨迹预测和行为决策是自动驾驶汽车的两项重要任务,他们需要对环境环境有良好的了解;通过参考轨迹预测的输出,可以更好地做出行为决策。但是,大多数当前解决方案分别执行这两个任务。因此,提出了结合多个线索的联合神经网络,并将其命名为整体变压器,以预测轨迹并同时做出行为决策。为了更好地探索线索之间的内在关系,网络使用现有知识并采用三种注意力机制:稀疏的多头类型用于减少噪声影响,特征选择稀疏类型,可最佳地使用部分先验知识,并与Sigmoid多头激活类型,用于最佳使用后验知识。与其他轨迹预测模型相比,所提出的模型具有更好的综合性能和良好的解释性。感知噪声稳健性实验表明,所提出的模型具有良好的噪声稳健性。因此,结合多个提示的同时轨迹预测和行为决策可以降低计算成本并增强场景与代理之间的语义关系。
translated by 谷歌翻译
Accurately predicting interactive road agents' future trajectories and planning a socially compliant and human-like trajectory accordingly are important for autonomous vehicles. In this paper, we propose a planning-centric prediction neural network, which takes surrounding agents' historical states and map context information as input, and outputs the joint multi-modal prediction trajectories for surrounding agents, as well as a sequence of control commands for the ego vehicle by imitation learning. An agent-agent interaction module along the time axis is proposed in our network architecture to better comprehend the relationship among all the other intelligent agents on the road. To incorporate the map's topological information, a Dynamic Graph Convolutional Neural Network (DGCNN) is employed to process the road network topology. Besides, the whole architecture can serve as a backbone for the Differentiable Integrated motion Prediction with Planning (DIPP) method by providing accurate prediction results and initial planning commands. Experiments are conducted on real-world datasets to demonstrate the improvements made by our proposed method in both planning and prediction accuracy compared to the previous state-of-the-art methods.
translated by 谷歌翻译
Modern autonomous driving system is characterized as modular tasks in sequential order, i.e., perception, prediction and planning. As sensors and hardware get improved, there is trending popularity to devise a system that can perform a wide diversity of tasks to fulfill higher-level intelligence. Contemporary approaches resort to either deploying standalone models for individual tasks, or designing a multi-task paradigm with separate heads. These might suffer from accumulative error or negative transfer effect. Instead, we argue that a favorable algorithm framework should be devised and optimized in pursuit of the ultimate goal, i.e. planning of the self-driving-car. Oriented at this goal, we revisit the key components within perception and prediction. We analyze each module and prioritize the tasks hierarchically, such that all these tasks contribute to planning (the goal). To this end, we introduce Unified Autonomous Driving (UniAD), the first comprehensive framework up-to-date that incorporates full-stack driving tasks in one network. It is exquisitely devised to leverage advantages of each module, and provide complementary feature abstractions for agent interaction from a global perspective. Tasks are communicated with unified query design to facilitate each other toward planning. We instantiate UniAD on the challenging nuScenes benchmark. With extensive ablations, the effectiveness of using such a philosophy is proven to surpass previous state-of-the-arts by a large margin in all aspects. The full suite of codebase and models would be available to facilitate future research in the community.
translated by 谷歌翻译
Making safe and human-like decisions is an essential capability of autonomous driving systems and learning-based behavior planning is a promising pathway toward this objective. Distinguished from existing learning-based methods that directly output decisions, this work introduces a predictive behavior planning framework that learns to predict and evaluate from human driving data. Concretely, a behavior generation module first produces a diverse set of candidate behaviors in the form of trajectory proposals. Then the proposed conditional motion prediction network is employed to forecast other agents' future trajectories conditioned on each trajectory proposal. Given the candidate plans and associated prediction results, we learn a scoring module to evaluate the plans using maximum entropy inverse reinforcement learning (IRL). We conduct comprehensive experiments to validate the proposed framework on a large-scale real-world urban driving dataset. The results reveal that the conditional prediction model is able to forecast multiple possible future trajectories given a candidate behavior and the prediction results are reactive to different plans. Moreover, the IRL-based scoring module can properly evaluate the trajectory proposals and select close-to-human ones. The proposed framework outperforms other baseline methods in terms of similarity to human driving trajectories. Moreover, we find that the conditional prediction model can improve both prediction and planning performance compared to the non-conditional model, and learning the scoring module is critical to correctly evaluating the candidate plans to align with human drivers.
translated by 谷歌翻译
本文提出了一个新型的深度学习框架,用于多模式运动预测。该框架由三个部分组成:经常性神经网络,以处理目标代理的运动过程,卷积神经网络处理栅格化环境表示以及一种基于距离的注意机制,以处理不同代理之间的相互作用。我们在大规模的真实驾驶数据集,Waymo Open Motion数据集上验证了所提出的框架,并将其性能与标准测试基准上的其他方法进行比较。定性结果表明,我们的模型给出的预测轨迹是准确,多样的,并且根据道路结构。标准基准测试的定量结果表明,我们的模型在预测准确性和其他评估指标方面优于其他基线方法。拟议的框架是2021 Waymo Open DataSet运动预测挑战的第二名。
translated by 谷歌翻译
Motion prediction systems aim to capture the future behavior of traffic scenarios enabling autonomous vehicles to perform safe and efficient planning. The evolution of these scenarios is highly uncertain and depends on the interactions of agents with static and dynamic objects in the scene. GNN-based approaches have recently gained attention as they are well suited to naturally model these interactions. However, one of the main challenges that remains unexplored is how to address the complexity and opacity of these models in order to deal with the transparency requirements for autonomous driving systems, which includes aspects such as interpretability and explainability. In this work, we aim to improve the explainability of motion prediction systems by using different approaches. First, we propose a new Explainable Heterogeneous Graph-based Policy (XHGP) model based on an heterograph representation of the traffic scene and lane-graph traversals, which learns interaction behaviors using object-level and type-level attention. This learned attention provides information about the most important agents and interactions in the scene. Second, we explore this same idea with the explanations provided by GNNExplainer. Third, we apply counterfactual reasoning to provide explanations of selected individual scenarios by exploring the sensitivity of the trained model to changes made to the input data, i.e., masking some elements of the scene, modifying trajectories, and adding or removing dynamic agents. The explainability analysis provided in this paper is a first step towards more transparent and reliable motion prediction systems, important from the perspective of the user, developers and regulatory agencies. The code to reproduce this work is publicly available at https://github.com/sancarlim/Explainable-MP/tree/v1.1.
translated by 谷歌翻译
Level 5 Autonomous Driving, a technology that a fully automated vehicle (AV) requires no human intervention, has raised serious concerns on safety and stability before widespread use. The capability of understanding and predicting future motion trajectory of road objects can help AV plan a path that is safe and easy to control. In this paper, we propose a network architecture that parallelizes multiple convolutional neural network backbones and fuses features to make multi-mode trajectory prediction. In the 2020 ICRA Nuscene Prediction challenge, our model ranks 15th on the leaderboard across all teams.
translated by 谷歌翻译
这项工作提出了一种新的方法,可以使用有效的鸟类视图表示和卷积神经网络在高速公路场景中预测车辆轨迹。使用基本的视觉表示,很容易将车辆位置,运动历史,道路配置和车辆相互作用轻松包含在预测模型中。 U-NET模型已被选为预测内核,以使用图像到图像回归方法生成场景的未来视觉表示。已经实施了一种方法来从生成的图形表示中提取车辆位置以实现子像素分辨率。该方法已通过预防数据集(一个板载传感器数据集)进行了培训和评估。已经评估了不同的网络配置和场景表示。这项研究发现,使用线性终端层和车辆的高斯表示,具有6个深度水平的U-NET是最佳性能配置。发现使用车道标记不会改善预测性能。平均预测误差为0.47和0.38米,对于纵向和横向坐标的最终预测误差分别为0.76和0.53米,预测轨迹长度为2.0秒。与基线方法相比,预测误差低至50%。
translated by 谷歌翻译
预测公路参与者的未来运动对于自动驾驶至关重要,但由于令人震惊的运动不确定性,因此极具挑战性。最近,大多数运动预测方法求助于基于目标的策略,即预测运动轨迹的终点,作为回归整个轨迹的条件,以便可以减少解决方案的搜索空间。但是,准确的目标坐标很难预测和评估。此外,目的地的点表示限制了丰富的道路环境的利用,从而导致预测不准确。目标区域,即可能的目的地区域,而不是目标坐标,可以通过涉及更多的容忍度和指导来提供更软的限制,以搜索潜在的轨迹。考虑到这一点,我们提出了一个新的基于目标区域的框架,名为“目标区域网络”(GANET)进行运动预测,该框架对目标区域进行了建模,而不是确切的目标坐标作为轨迹预测的先决条件,更加可靠,更准确地执行。具体而言,我们建议一个goicrop(目标的目标区域)操作员有效地提取目标区域中的语义巷特征,并在目标区域和模型演员的未来互动中提取语义巷,这对未来的轨迹估计很大。 Ganet在所有公共文献(直到论文提交)中排名第一个,将其源代码排在第一位。
translated by 谷歌翻译
相应地预测周围交通参与者的未来状态,并计划安全,平稳且符合社会的轨迹对于自动驾驶汽车至关重要。当前的自主驾驶系统有两个主要问题:预测模块通常与计划模块解耦,并且计划的成本功能很难指定和调整。为了解决这些问题,我们提出了一个端到端的可区分框架,该框架集成了预测和计划模块,并能够从数据中学习成本函数。具体而言,我们采用可区分的非线性优化器作为运动计划者,该运动计划将神经网络给出的周围剂的预测轨迹作为输入,并优化了自动驾驶汽车的轨迹,从而使框架中的所有操作都可以在框架中具有可观的成本,包括成本功能权重。提出的框架经过大规模的现实驾驶数据集进行了训练,以模仿整个驾驶场景中的人类驾驶轨迹,并在开环和闭环界面中进行了验证。开环测试结果表明,所提出的方法的表现优于各种指标的基线方法,并提供以计划为中心的预测结果,从而使计划模块能够输出接近人类的轨迹。在闭环测试中,提出的方法表明能够处理复杂的城市驾驶场景和鲁棒性,以抵抗模仿学习方法所遭受的分配转移。重要的是,我们发现计划和预测模块的联合培训比在开环和闭环测试中使用单独的训练有素的预测模块进行计划要比计划更好。此外,消融研究表明,框架中的可学习组件对于确保计划稳定性和性能至关重要。
translated by 谷歌翻译
从社交机器人到自动驾驶汽车,多种代理的运动预测(MP)是任意复杂环境中的至关重要任务。当前方法使用端到端网络解决了此问题,其中输入数据通常是场景的最高视图和所有代理的过去轨迹;利用此信息是获得最佳性能的必不可少的。从这个意义上讲,可靠的自动驾驶(AD)系统必须按时产生合理的预测,但是,尽管其中许多方法使用了简单的Convnets和LSTM,但在使用两个信息源时,模型对于实时应用程序可能不够有效(地图和轨迹历史)。此外,这些模型的性能在很大程度上取决于训练数据的数量,这可能很昂贵(尤其是带注释的HD地图)。在这项工作中,我们探讨了如何使用有效的基于注意力的模型在Argoverse 1.0基准上实现竞争性能,该模型将其作为最小地图信息的过去轨迹和基于地图的功能的输入,以确保有效且可靠的MP。这些功能代表可解释的信息作为可驱动区域和合理的目标点,与基于黑框CNN的地图处理方法相反。
translated by 谷歌翻译
由于互动交通参与者的随机性质和道路结构的复杂性,城市自动驾驶的决策是具有挑战性的。尽管基于强化的学习(RL)决策计划有望处理城市驾驶方案,但它的样本效率低和适应性差。在本文中,我们提出了Scene-Rep Transformer,以通过更好的场景表示编码和顺序预测潜在蒸馏来提高RL决策能力。具体而言,构建了多阶段变压器(MST)编码器,不仅对自我车辆及其邻居之间的相互作用意识进行建模,而且对代理商及其候选路线之间的意图意识。具有自我监督学习目标的连续潜伏变压器(SLT)用于将未来的预测信息提炼成潜在的场景表示,以减少勘探空间并加快训练的速度。基于软演员批评的最终决策模块(SAC)将来自场景rep变压器的精制潜在场景表示输入,并输出驾驶动作。该框架在五个挑战性的模拟城市场景中得到了验证,其性能通过成功率,安全性和效率方面的数据效率和性能的大幅度提高来定量表现出来。定性结果表明,我们的框架能够提取邻居代理人的意图,以帮助做出决策并提供更多多元化的驾驶行为。
translated by 谷歌翻译
关于车辆路径预测的推理是自动驾驶系统安全运行的必不可少的问题。有许多用于路径预测的研究工作。但是,其中大多数不使用车道信息,也不基于变压器体系结构。通过利用从配备自动驾驶车辆的传感器收集的不同类型的数据,我们提出了一个名为多模式变压器路径预测(MTPP)的路径预测系统,该系统旨在预测目标试剂的长期未来轨迹。为了实现更准确的路径预测,在我们的模型中采用了变压器体系结构。为了更好地利用车道信息,目标试剂不太可能采用与目标试剂相反的车道,因此被过滤掉。另外,将连续的车道块组合在一起,以确保车道输入足够长以进行路径预测。进行了广泛的评估,以显示使用Nuscene(现实世界中的轨迹预测数据集)的拟议系统的功效。
translated by 谷歌翻译
Predicting the future motion of dynamic agents is of paramount importance to ensure safety or assess risks in motion planning for autonomous robots. In this paper, we propose a two-stage motion prediction method, referred to as R-Pred, that effectively utilizes both the scene and interaction context using a cascade of the initial trajectory proposal network and the trajectory refinement network. The initial trajectory proposal network produces M trajectory proposals corresponding to M modes of a future trajectory distribution. The trajectory refinement network enhances each of M proposals using 1) the tube-query scene attention (TQSA) and 2) the proposal-level interaction attention (PIA). TQSA uses tube-queries to aggregate the local scene context features pooled from proximity around the trajectory proposals of interest. PIA further enhances the trajectory proposals by modeling inter-agent interactions using a group of trajectory proposals selected based on their distances from neighboring agents. Our experiments conducted on the Argoverse and nuScenes datasets demonstrate that the proposed refinement network provides significant performance improvements compared to the single-stage baseline and that R-Pred achieves state-of-the-art performance in some categories of the benchmark.
translated by 谷歌翻译
自我监督学习(SSL)是一种新兴技术,已成功地用于培训卷积神经网络(CNNS)和图形神经网络(GNNS),以进行更可转移,可转换,可推广和稳健的代表性学习。然而,很少探索其对自动驾驶的运动预测。在这项研究中,我们报告了将自学纳入运动预测的首次系统探索和评估。我们首先建议研究四项新型的自我监督学习任务,以通过理论原理以及对挑战性的大规模argoverse数据集进行运动预测以及定量和定性比较。其次,我们指出,基于辅助SSL的学习设置不仅胜过预测方法,这些方法在性能准确性方面使用变压器,复杂的融合机制和复杂的在线密集目标候选优化算法,而且具有较低的推理时间和建筑复杂性。最后,我们进行了几项实验,以了解为什么SSL改善运动预测。代码在\ url {https://github.com/autovision-cloud/ssl-lanes}上开源。
translated by 谷歌翻译
自主驾驶的运动预测领域的先前艺术倾向于寻找接近地面真理轨迹的轨迹。但是,这种问题的表述和方法经常导致多样性和偏见轨迹预测的丧失。因此,它们不适合现实世界的自主驾驶,在这种驾驶中,多样化和依赖道路的多模式轨迹预测对安全至关重要。为此,本研究提出了一种新颖的损失函数\ textit {lane损失},可确保地图自适应多样性并适应几何约束。对带有新型轨迹候选建议模块的两阶段轨迹预测架构,\ textit {轨迹预测注意(TPA)}经过训练,通过车道损失训练,鼓励多个轨迹分布多样,以涵盖可行的方式以图像意识的方式涵盖可行的操作。此外,考虑到现有的轨迹性能指标正在重点是基于地面真理未来轨迹评估准确性,因此还建议定量评估指标来评估预测的多个轨迹的多样性。在Argoverse数据集上进行的实验表明,所提出的方法显着提高了预测轨迹的多样性,而无需牺牲预测准确性。
translated by 谷歌翻译
为了安全和合理地参与密集和异质的交通,自动驾驶汽车需要充分分析周围交通代理的运动模式,并准确预测其未来的轨迹。这是具有挑战性的,因为交通代理的轨迹不仅受交通代理本身的影响,而且还受到彼此的空间互动的影响。以前的方法通常依赖于长期短期存储网络(LSTMS)的顺序逐步处理,并仅提取单型交通代理之间的空间邻居之间的相互作用。我们提出了时空变压器网络(S2TNET),该网络通过时空变压器对时空相互作用进行建模,并通过时间变压器处理颞序序列。我们将其他类别,形状和标题信息输入到我们的网络中,以处理交通代理的异质性。在Apolloscape轨迹数据集上,所提出的方法在平均值和最终位移误差的加权总和上优于Apolloscape轨迹数据集的最先进方法。我们的代码可在https://github.com/chenghuang66/s2tnet上找到。
translated by 谷歌翻译
交通参与者的运动预测对于安全和强大的自动化驾驶系统至关重要,特别是在杂乱的城市环境中。然而,由于复杂的道路拓扑以及其他代理的不确定意图,这是强大的挑战。在本文中,我们介绍了一种基于图形的轨迹预测网络,其命名为双级预测器(DSP),其以分层方式编码静态和动态驾驶环境。与基于光栅状地图或稀疏车道图的方法不同,我们将驾驶环境视为具有两层的图形,专注于几何和拓扑功能。图形神经网络(GNNS)应用于提取具有不同粒度级别的特征,随后通过基于关注的层间网络聚合,实现更好的本地全局特征融合。在最近的目标驱动的轨迹预测管道之后,提取了目标代理的高可能性的目标候选者,并在这些目标上产生预测的轨迹。由于提出的双尺度上下文融合网络,我们的DSP能够产生准确和人类的多模态轨迹。我们评估了大规模协会运动预测基准测试的提出方法,实现了有希望的结果,优于最近的最先进的方法。
translated by 谷歌翻译
安全可靠的自主驾驶堆栈(AD)的设计是我们时代最具挑战性的任务之一。预计这些广告将在具有完全自主权的高度动态环境中驱动,并且比人类更大的可靠性。从这个意义上讲,要高效,安全地浏览任意复杂的流量情景,广告必须具有预测周围参与者的未来轨迹的能力。当前的最新模型通常基于复发,图形和卷积网络,在车辆预测的背景下取得了明显的结果。在本文中,我们探讨了在生成模型进行运动预测中注意力的影响,考虑到物理和社会环境以计算最合理的轨迹。我们首先使用LSTM网络对过去的轨迹进行编码,该网络是计算社会背景的多头自我发言模块的输入。另一方面,我们制定了一个加权插值来计算最后一个观测框中的速度和方向,以便计算可接受的目标点,从HDMAP信息的可驱动的HDMAP信息中提取,这代表了我们的物理环境。最后,我们的发电机的输入是从多元正态分布采样的白噪声矢量,而社会和物理环境则是其条件,以预测可行的轨迹。我们使用Argoverse运动预测基准1.1验证我们的方法,从而实现竞争性的单峰结果。
translated by 谷歌翻译
应用强化学习来自动驾驶需要某些挑战,这主要是由于大规模的交通流动,这种挑战是动态变化的。为了应对此类挑战,有必要快速确定对周围车辆不断变化的意图的响应策略。因此,我们提出了一种新的政策优化方法,用于使用基于图的互动感知约束来安全驾驶。在此框架中,运动预测和控制模块是同时训练的,同时共享包含社会环境的潜在表示。此外,为了反映社交互动,我们以图形形式表达了代理的运动并过滤特征。这有助于保留相邻节点的时空位置。此外,我们创建反馈循环以有效地组合这两个模块。结果,这种方法鼓励博学的控制器免受动态风险的侵害,并在各种情况下使运动预测强大。在实验中,我们与城市驾驶模拟器Carla建立了一个包括各种情况的导航场景。该实验表明,与基线相比,导航策略和运动预测的两侧的最新性能。
translated by 谷歌翻译