在城市地区,交通拥堵是一个严重的问题。动态拥堵定价是消除战略规模交通拥堵的有用计划之一。但是,实际上,理论上很难或不可能确定最佳的动态拥堵定价,因为道路网络通常很大且复杂,而且道路使用者的行为尚不确定。为了解决这一挑战,这项工作提出了一种使用深度强化学习(DRL)的动态拥塞定价方法。它旨在通过利用深度强化学习的数据驱动性质来基于一般大规模道路网络中可观察到的数据来消除交通拥堵。该方法的新元素之一是分布式和合作学习方案。具体而言,DRL是通过空间分布的方式实现的,DRL代理之间的合作是由我们称为空间共享奖励和时间切换学习的新颖技术建立的。它可以在大规模网络中快速且计算高效的学习。使用SIOUX FALLS网络的数值实验表明,由于新的学习方案,该方法效果很好。
translated by 谷歌翻译
事物互联网(物联网)和人工智能(AI)的快速进步催化了智能城市的自适应交通信号控制系统(ATCS)的开发。特别是,深度增强学习(DRL)方法产生最先进的性能,并且具有很大的实际应用潜力。在现有的基于DRL的ATC中,受控信号从附近车辆收集交通状态信息,然后可以基于收集的信息确定最佳动作(例如,切换阶段)。 DRL模型完全“信任”该车辆正在向信号发送真实信息,使ATC易受伪造信息的对抗攻击。鉴于此,本文首次制定了一种新颖的任务,其中一组车辆可以协同地发送伪造的信息,以“欺骗”基于DRL的ATC,以节省他们的总旅行时间。为了解决拟议的任务,我们开发了由道路状语编码器,车辆解释器和通信机制组成的通用和有效的车辆斗争框架。我们采用我们的方法来攻击建立的基于DRL的ATC,并证明拼拼载的总行程时间可以通过合理数量的学习剧集显着减少,并且如果拼的车辆的数量增加,勾结效果将减小。此外,还提供了对基于DRL的ATC的实际部署的见解和建议。研究结果可以帮助提高ATC的可靠性和鲁棒性,并更好地保护智能移动系统。
translated by 谷歌翻译
深度强化学习(DRL)使用多样化的非结构化数据,并使RL能够在高维环境中学习复杂的策略。基于自动驾驶汽车(AVS)的智能运输系统(ITS)为基于政策的DRL提供了绝佳的操场。深度学习体系结构解决了传统算法的计算挑战,同时帮助实现了AV的现实采用和部署。 AVS实施的主要挑战之一是,即使不是可靠和有效地管理的道路上的交通拥堵可能会加剧交通拥堵。考虑到每辆车的整体效果并使用高效和可靠的技术可以真正帮助优化交通流量管理和减少拥堵。为此,我们提出了一个智能的交通管制系统,该系统处理在交叉路口和交叉点后面的复杂交通拥堵场景。我们提出了一个基于DRL的信号控制系统,该系统根据当前交叉点的当前拥塞状况动态调整交通信号。为了应对交叉路口后面的道路上的拥堵,我们使用重新穿线技术来加载道路网络上的车辆。为了实现拟议方法的实际好处,我们分解了数据筒仓,并将所有来自传感器,探测器,车辆和道路结合使用的数据结合起来,以实现可持续的结果。我们使用Sumo微型模拟器进行模拟。我们提出的方法的重要性从结果中体现出来。
translated by 谷歌翻译
Reinforcement Learning (RL) is currently one of the most commonly used techniques for traffic signal control (TSC), which can adaptively adjusted traffic signal phase and duration according to real-time traffic data. However, a fully centralized RL approach is beset with difficulties in a multi-network scenario because of exponential growth in state-action space with increasing intersections. Multi-agent reinforcement learning (MARL) can overcome the high-dimension problem by employing the global control of each local RL agent, but it also brings new challenges, such as the failure of convergence caused by the non-stationary Markov Decision Process (MDP). In this paper, we introduce an off-policy nash deep Q-Network (OPNDQN) algorithm, which mitigates the weakness of both fully centralized and MARL approaches. The OPNDQN algorithm solves the problem that traditional algorithms cannot be used in large state-action space traffic models by utilizing a fictitious game approach at each iteration to find the nash equilibrium among neighboring intersections, from which no intersection has incentive to unilaterally deviate. One of main advantages of OPNDQN is to mitigate the non-stationarity of multi-agent Markov process because it considers the mutual influence among neighboring intersections by sharing their actions. On the other hand, for training a large traffic network, the convergence rate of OPNDQN is higher than that of existing MARL approaches because it does not incorporate all state information of each agent. We conduct an extensive experiments by using Simulation of Urban MObility simulator (SUMO), and show the dominant superiority of OPNDQN over several existing MARL approaches in terms of average queue length, episode training reward and average waiting time.
translated by 谷歌翻译
紧急车辆(EMV)在应对诸如市区的医疗紧急情况和火灾爆发等时间关键事件方面起着至关重要的作用。 EMV花费在交通中旅行的时间越多,越有助于挽救人们的生命并减少财产损失的可能性就越大。为了减少EMV的旅行时间,先前的工作已根据历史流量流数据和基于最佳路线的流量信号进行优化。但是,流量信号的预先避免动态更改流量,从而改变了EMV的最佳路线。此外,交通信号的先发制人通常会导致交通流量的重大干扰,并随后增加非EMV的旅行时间。在本文中,我们提出了EMVLIGHT,这是一个分散的增强学习(RL)框架,用于同时动态路由和交通信号控制。 EMVLIGHT扩展了Dijkstra的算法,以实时更新EMV的最佳路由,因为它通过流量网络传播。分散的RL代理学习网络级的合作交通信号阶段策略,这些策略不仅减少EMV旅行时间,而且还减少了网络中非EMV的平均旅行时间。通过合成和现实世界地图的全面实验证明了这一好处。这些实验表明,EMVLIGHT优于基准运输工程技术和现有的基于RL的信号控制方法。
translated by 谷歌翻译
紧急车辆(EMV)在应对城市地区的医疗紧急情况和火灾爆发等时间关键电话方面起着至关重要的作用。现有的EMV调度方法通常会根据历史流量数据数据和设计流量信号相应地优化路线;但是,我们仍然缺乏一种系统的方法来解决EMV路由和流量信号控制之间的耦合。在本文中,我们提出了EMVLIGHT,这是一个分散的加固学习(RL)框架,用于联合动态EMV路由和交通信号的先发制人。我们采用具有政策共享和空间折现因子的多代理优势行为者 - 批评方法。该框架通过多级RL代理的创新设计和新型的基于压力的奖励功能来解决EMV导航和交通信号控制之间的耦合。拟议的方法使EMVLIGHT能够学习网络级的合作交通信号相阶段阶段策略,这些策略不仅减少EMV旅行时间,而且还缩短了非EMV的旅行时间。基于仿真的实验表明,EMVLIGHT可使EMV旅行时间减少$ 42.6 \%$,以及与现有方法相比,$ 23.5 \%$短的平均旅行时间。
translated by 谷歌翻译
许多现实世界的应用程序都可以作为多机构合作问题进行配置,例如网络数据包路由和自动驾驶汽车的协调。深入增强学习(DRL)的出现为通过代理和环境的相互作用提供了一种有前途的多代理合作方法。但是,在政策搜索过程中,传统的DRL解决方案遭受了多个代理具有连续动作空间的高维度。此外,代理商政策的动态性使训练非平稳。为了解决这些问题,我们建议采用高级决策和低水平的个人控制,以进行有效的政策搜索,提出一种分层增强学习方法。特别是,可以在高级离散的动作空间中有效地学习多个代理的合作。同时,低水平的个人控制可以减少为单格强化学习。除了分层增强学习外,我们还建议对手建模网络在学习过程中对其他代理的政策进行建模。与端到端的DRL方法相反,我们的方法通过以层次结构将整体任务分解为子任务来降低学习的复杂性。为了评估我们的方法的效率,我们在合作车道变更方案中进行了现实世界中的案例研究。模拟和现实世界实验都表明我们的方法在碰撞速度和收敛速度中的优越性。
translated by 谷歌翻译
交通信号控制是一个具有挑战性的现实问题,旨在通过协调道路交叉路口的车辆移动来最大程度地减少整体旅行时间。现有使用中的流量信号控制系统仍然很大程度上依赖于过度简化的信息和基于规则的方法。具体而言,可以将绿色/红灯交替的周期性视为在策略优化中对每个代理进行更好计划的先验。为了更好地学习这种适应性和预测性先验,传统的基于RL的方法只能从只有本地代理的预定义动作池返回固定的长度。如果这些代理之间没有合作,则某些代理商通常会对其他代理产生冲突,从而减少整个吞吐量。本文提出了一个合作,多目标体系结构,具有年龄段的权重,以更好地估算流量信号控制优化的多重奖励条款,该奖励术语称为合作的多目标多代理多代理深度确定性策略梯度(Comma-ddpg)。运行的两种类型的代理可以最大程度地提高不同目标的奖励 - 一种用于每个交叉路口的本地流量优化,另一种用于全球流量等待时间优化。全球代理用于指导本地代理作为帮助更快学习的手段,但在推理阶段不使用。我们还提供了解决溶液存在的分析,并为提出的RL优化提供了融合证明。使用亚洲国家的交通摄像机收集的现实世界流量数据进行评估。我们的方法可以有效地将总延迟时间减少60 \%。结果表明,与SOTA方法相比,其优越性。
translated by 谷歌翻译
本文重点介绍了大型城市网络的几个属性,这些属性可能会影响应用于交通信号控制的机器学习方法。特别是,我们表明,随着密度的增加,平均网络流往往独立于信号控制策略。到目前为止,这种属性一直存在于雷达之下,这意味着在拥挤的条件下训练时,深厚的增强学习(DRL)方法变得无效,并且可能解释了DRL在交通信号控制方面的成功有限。我们的结果适用于所有可能的网格网络,这要归功于基于两个网络参数的参数化:连续交通信号灯与预期绿色时间之间的预期距离和交叉点的转弯概率的比率。具有不同参数的网络对流量信号控制的响应非常不同。值得注意的是,我们发现没有控制(即随机政策)可以成为一个令人惊讶的大型网络家庭的有效控制策略。对于基线和DRL政策而言,转向概率的影响都非常重要。它还解释了这些策略观察到的对称性的丧失,这并不能由依赖走廊近似没有转弯的现有理论捕获。我们的发现还表明,监督的学习方法具有巨大的潜力,因为它们几乎不需要实例来制定出色的政策。
translated by 谷歌翻译
紧急车辆(EMV)在城市对诸如医疗紧急情况和消防疫情等时间关键事件的回应中发挥着关键作用。现有的降低EMV旅行时间的方法采用路由优化和流量信号在不占路由这两个子问题之间的耦合的情况下。结果,计划的路线通常变得次优。此外,这些方法也不关注最大限度地减少对整体交通流量的干扰。为了解决这些问题,我们在本文中介绍了EMVlight。这是一个分散的加强学习(RL)框架,用于同时动态路由和流量信号控制。 EMVlight扩展了Dijkstra的算法,以便在运行流量网络时实时更新EMV的最佳路由。因此,分散的RL代理学习网络级协同业务信号相位策略,从而减少了网络中非EMV的平均旅行时间和平均旅行时间。我们对综合性和现实世界地图进行了全面的实验,以证明这种好处。我们的研究结果表明,EMVlight优于基准运输工程技术以及现有的基于RL的流量信号控制方法。
translated by 谷歌翻译
The high emission and low energy efficiency caused by internal combustion engines (ICE) have become unacceptable under environmental regulations and the energy crisis. As a promising alternative solution, multi-power source electric vehicles (MPS-EVs) introduce different clean energy systems to improve powertrain efficiency. The energy management strategy (EMS) is a critical technology for MPS-EVs to maximize efficiency, fuel economy, and range. Reinforcement learning (RL) has become an effective methodology for the development of EMS. RL has received continuous attention and research, but there is still a lack of systematic analysis of the design elements of RL-based EMS. To this end, this paper presents an in-depth analysis of the current research on RL-based EMS (RL-EMS) and summarizes the design elements of RL-based EMS. This paper first summarizes the previous applications of RL in EMS from five aspects: algorithm, perception scheme, decision scheme, reward function, and innovative training method. The contribution of advanced algorithms to the training effect is shown, the perception and control schemes in the literature are analyzed in detail, different reward function settings are classified, and innovative training methods with their roles are elaborated. Finally, by comparing the development routes of RL and RL-EMS, this paper identifies the gap between advanced RL solutions and existing RL-EMS. Finally, this paper suggests potential development directions for implementing advanced artificial intelligence (AI) solutions in EMS.
translated by 谷歌翻译
Compared with model-based control and optimization methods, reinforcement learning (RL) provides a data-driven, learning-based framework to formulate and solve sequential decision-making problems. The RL framework has become promising due to largely improved data availability and computing power in the aviation industry. Many aviation-based applications can be formulated or treated as sequential decision-making problems. Some of them are offline planning problems, while others need to be solved online and are safety-critical. In this survey paper, we first describe standard RL formulations and solutions. Then we survey the landscape of existing RL-based applications in aviation. Finally, we summarize the paper, identify the technical gaps, and suggest future directions of RL research in aviation.
translated by 谷歌翻译
In the context of an efficient network traffic engineering process where the network continuously measures a new traffic matrix and updates the set of paths in the network, an automated process is required to quickly and efficiently identify when and what set of paths should be used. Unfortunately, the burden of finding the optimal solution for the network updating process in each given time interval is high since the computation complexity of optimization approaches using linear programming increases significantly as the size of the network increases. In this paper, we use deep reinforcement learning to derive a data-driven algorithm that does the path selection in the network considering the overhead of route computation and path updates. Our proposed scheme leverages information about past network behavior to identify a set of robust paths to be used for multiple future time intervals to avoid the overhead of updating the forwarding behavior of routers frequently. We compare the results of our approach to other traffic engineering solutions through extensive simulations across real network topologies. Our results demonstrate that our scheme fares well by a factor of 40% with respect to reducing link utilization compared to traditional TE schemes such as ECMP. Our scheme provides a slightly higher link utilization (around 25%) compared to schemes that only minimize link utilization and do not care about path updating overhead.
translated by 谷歌翻译
巴士系统是可持续城市交通的关键组成部分。然而,公交车队的操作本质上是不稳定的,总线串行已成为泛滥的现象,破坏了公交系统的效率和可靠性。最近的研究表明,多智能体增强学习(MARL)应用了高效的车载控制,以避免公共汽车束缚。然而,现有的研究基本上忽略了过境系统中的各种事件,扰动和异常导致的稳健性问题,这在传输现实世界部署/应用程序的模型时至关重要。在这项研究中,我们将隐式分位式网络和元学习集成了开发分布式Marl框架 - IQNC-M - 以学习连续控制。所提出的IQNC-M框架通过更好地处理实时运输操作中的各种不确定性/事件来实现高效可靠的控制决策。具体而言,我们介绍一个可解释的元学习模块,将全球信息纳入分配MARL框架,这是一种有效的解决方案,以规避过境系统中的信用分配问题。此外,我们设计了一个特定的学习过程,以培训框架内的每个代理,以追求强大的控制策略。我们基于现实世界总线服务和乘客需求数据开发仿真环境,并评估传统控股型号和最先进的MARL模型的建议框架。我们的研究结果表明,建议的IQNC-M框架可以有效处理各种极端事件,如交通状态扰动,服务中断和需求浪涌,从而提高了系统的效率和可靠性。
translated by 谷歌翻译
智能城市的智能交通灯可以最佳地减少交通拥堵。在这项研究中,我们采用了加强学习,培训了城市移动模拟器的红绿灯的控制代理。由于现有工程的差异,除了基于价值的方法之外,利用基于策略的深度加强学习方法,近端策略优化(PPO),例如Deep Q网络(DQN)和双DQN(DDQN)。首先,将获得PPO的最佳政策与来自DQN和DDQN的PPO相比。发现PPO的政策比其他政策更好。接下来,而不是固定间隔的流量光阶段,我们采用具有可变时间间隔的光相位,这导致更好的策略来传递流量流。然后,研究了环境和行动干扰的影响,以展示基于学习的控制器是强大的。最后,我们考虑不平衡的交通流量,并发现智能流量可以适度地对不平衡的流量方案执行,尽管它仅从平衡流量方案中了解最佳策略。
translated by 谷歌翻译
本文开发了用于多交叉路口自适应交通信号控制(TSC)的分散增强学习(RL)方案,称为“CVlight”,其利用从连接的车辆(CVS)收集的数据。国家和奖励设计促进了代理商之间的协调,并考虑由CVS收集的旅行延误。提出了一种新颖的算法,非对称优势演员 - 评论家(EB-A2C),其中CV和非CV信息都用于培训批评网络,而仅使用CV信息来执行最佳信号定时。综合实验表明,CVlight的优越性在一个2×2合成道路网络下的最先进的算法,各种交通需求模式和穿透速率。然后,学习的政策被可视化以进一步展示ASYM-A2C的优点。采用火车前技术来提高CVlight的可扩展性,这显着缩短了培训时间,并在5×5路网络下表现出性能的优势。在美国宾夕法尼亚州宾夕法尼亚州州学院的2×2路网络上进行了一个案例研究,以进一步展示了在现实世界方案下所提出的算法的有效性。与其他基线模型相比,训练有素的CVlight代理可以仅基于CV数据有效地控制多个交叉点,达到最佳性能,特别是在低CV渗透率下。
translated by 谷歌翻译
在过去的几十年中,车辆的升级和更新加速了。出于对环境友好和情报的需求,电动汽车(EV)以及连接和自动化的车辆(CAVS)已成为运输系统的新组成部分。本文开发了一个增强学习框架,以在信号交叉点上对由骑士和人类驱动车辆(HDV)组成的电力排实施自适应控制。首先,提出了马尔可夫决策过程(MDP)模型来描述混合排的决策过程。新颖的状态表示和奖励功能是为模型设计的,以考虑整个排的行为。其次,为了处理延迟的奖励,提出了增强的随机搜索(ARS)算法。代理商所学到的控制政策可以指导骑士的纵向运动,后者是排的领导者。最后,在模拟套件相扑中进行了一系列模拟。与几种最先进的(SOTA)强化学习方法相比,提出的方法可以获得更高的奖励。同时,仿真结果证明了延迟奖励的有效性,延迟奖励的有效性均优于分布式奖励机制}与正常的汽车跟随行为相比,灵敏度分析表明,可以将能量保存到不同的扩展(39.27%-82.51%))通过调整优化目标的相对重要性。在没有牺牲行进延迟的前提下,建议的控制方法可以节省多达53.64%的电能。
translated by 谷歌翻译
智能能源网络提供了一种有效的手段,可容纳可变可再生能源(例如太阳能和风能)的高渗透率,这是能源生产深度脱碳的关键。但是,鉴于可再生能源以及能源需求的可变性,必须制定有效的控制和能源存储方案来管理可变的能源产生并实现所需的系统经济学和环境目标。在本文中,我们引入了由电池和氢能存储组成的混合储能系统,以处理与电价,可再生能源生产和消费有关的不确定性。我们旨在提高可再生能源利用率,并最大程度地减少能源成本和碳排放,同时确保网络内的能源可靠性和稳定性。为了实现这一目标,我们提出了一种多代理的深层确定性政策梯度方法,这是一种基于强化的基于强化学习的控制策略,可实时优化混合能源存储系统和能源需求的调度。提出的方法是无模型的,不需要明确的知识和智能能源网络环境的严格数学模型。基于现实世界数据的仿真结果表明:(i)混合储能系统和能源需求的集成和优化操作可将碳排放量减少78.69%,将成本节省的成本储蓄提高23.5%,可续订的能源利用率比13.2%以上。其他基线模型和(ii)所提出的算法优于最先进的自学习算法,例如Deep-Q网络。
translated by 谷歌翻译
在自主驾驶场中,人类知识融合到深增强学习(DRL)通常基于在模拟环境中记录的人类示范。这限制了在现实世界交通中的概率和可行性。我们提出了一种两级DRL方法,从真实的人类驾驶中学习,实现优于纯DRL代理的性能。培训DRL代理商是在Carla的框架内完成了机器人操作系统(ROS)。对于评估,我们设计了不同的真实驾驶场景,可以将提出的两级DRL代理与纯DRL代理进行比较。在从人驾驶员中提取“良好”行为之后,例如在信号交叉口中的预期,该代理变得更有效,并且驱动更安全,这使得这种自主代理更适应人体机器人交互(HRI)流量。
translated by 谷歌翻译
Proper functioning of connected and automated vehicles (CAVs) is crucial for the safety and efficiency of future intelligent transport systems. Meanwhile, transitioning to fully autonomous driving requires a long period of mixed autonomy traffic, including both CAVs and human-driven vehicles. Thus, collaboration decision-making for CAVs is essential to generate appropriate driving behaviors to enhance the safety and efficiency of mixed autonomy traffic. In recent years, deep reinforcement learning (DRL) has been widely used in solving decision-making problems. However, the existing DRL-based methods have been mainly focused on solving the decision-making of a single CAV. Using the existing DRL-based methods in mixed autonomy traffic cannot accurately represent the mutual effects of vehicles and model dynamic traffic environments. To address these shortcomings, this article proposes a graph reinforcement learning (GRL) approach for multi-agent decision-making of CAVs in mixed autonomy traffic. First, a generic and modular GRL framework is designed. Then, a systematic review of DRL and GRL methods is presented, focusing on the problems addressed in recent research. Moreover, a comparative study on different GRL methods is further proposed based on the designed framework to verify the effectiveness of GRL methods. Results show that the GRL methods can well optimize the performance of multi-agent decision-making for CAVs in mixed autonomy traffic compared to the DRL methods. Finally, challenges and future research directions are summarized. This study can provide a valuable research reference for solving the multi-agent decision-making problems of CAVs in mixed autonomy traffic and can promote the implementation of GRL-based methods into intelligent transportation systems. The source code of our work can be found at https://github.com/Jacklinkk/Graph_CAVs.
translated by 谷歌翻译