智能论文笔记

A Reinforcement Learning-based Adaptive Control Model for Future Street Planning, An Algorithm and A Case Study

Qiming Ye , Yuxiang Feng , Jing Han , Marc Stettler , Panagiotis Angeloudis

分类：人工智能

2021-12-10

随着智能交通系统的新兴技术（其），在几十年之内可能会实现公路空间的自适应操作。智能街可以在道路使用者的右路（行）上学习和改进其决策，并在保持交通安全和效率的同时解放更多活动的行人空间。然而，这些自适应街道基础设施缺乏有效的控制技术。为了填补现有研究中的这种差距，我们将该控制问题作为马尔可夫游戏制定，并基于多代理深度确定性政策梯度（MADDPG）算法开发解决方案。该建议的模型可以实时地动态地为人行道，自主车辆（AVS）行驶车道和街边停车区域的行。与Sumo流量模拟器集成，此模型是使用南肯辛顿区的道路网络进行评估，针对三种发散交通状况：行人流量，AVS交通流量和停车需求。结果表明，我们的模型可以在街头停车场和车辆操作中分配的街道空间平均减少3.87％和6.26％。结合通过限制驾驶通道的数量而获得的空间，人行道的平均比例与街道总宽度的平均比例可以显着增加10.13％。

translated by 谷歌翻译

EMVLight: a Multi-agent Reinforcement Learning Framework for an Emergency Vehicle Decentralized Routing and Traffic Signal Control System

Haoran Su , Yaofeng D. Zhong , Joseph Y. J. Chow , Biswadip Dey , Li Jin

分类：人工智能

2022-06-27

紧急车辆（EMV）在应对城市地区的医疗紧急情况和火灾爆发等时间关键电话方面起着至关重要的作用。现有的EMV调度方法通常会根据历史流量数据数据和设计流量信号相应地优化路线；但是，我们仍然缺乏一种系统的方法来解决EMV路由和流量信号控制之间的耦合。在本文中，我们提出了EMVLIGHT，这是一个分散的加固学习（RL）框架，用于联合动态EMV路由和交通信号的先发制人。我们采用具有政策共享和空间折现因子的多代理优势行为者 - 批评方法。该框架通过多级RL代理的创新设计和新型的基于压力的奖励功能来解决EMV导航和交通信号控制之间的耦合。拟议的方法使EMVLIGHT能够学习网络级的合作交通信号相阶段阶段策略，这些策略不仅减少EMV旅行时间，而且还缩短了非EMV的旅行时间。基于仿真的实验表明，EMVLIGHT可使EMV旅行时间减少$ 42.6 \％$，以及与现有方法相比，$ 23.5 \％$短的平均旅行时间。

translated by 谷歌翻译

Location-Routing Planning for Last-Mile Deliveries Using Mobile Parcel Lockers: A Hybrid Q-Learning Network Approach

Yubin Liu , Qiming Ye , Jose Escribano-Macias , Yuxiang Feng , Panagiotis Angeloudis

分类：人工智能

2022-09-09

物流运营商最近提出了一项技术，可以帮助降低城市货运分销中的交通拥堵和运营成本，最近提出了移动包裹储物柜（MPLS）。鉴于他们能够在整个部署领域搬迁，因此他们具有提高客户可访问性和便利性的潜力。在这项研究中，我们制定了移动包裹储物柜问题（MPLP），这是位置路由问题（LRP）的特殊情况，该案例确定了整天MPL的最佳中途停留位置以及计划相应的交付路线。开发了基于混合Q学习网络的方法（HQM），以解决所得大问题实例的计算复杂性，同时逃脱了本地Optima。此外，HQM与全球和局部搜索机制集成在一起，以解决经典强化学习（RL）方法所面临的探索和剥削困境。我们检查了HQM在不同问题大小（最多200个节点）下的性能，并根据遗传算法（GA）进行了基准测试。我们的结果表明，HQM获得的平均奖励比GA高1.96倍，这表明HQM具有更好的优化能力。最后，我们确定有助于车队规模要求，旅行距离和服务延迟的关键因素。我们的发现概述了MPL的效率主要取决于时间窗口的长度和MPL中断的部署。

translated by 谷歌翻译

Traffic Management of Autonomous Vehicles using Policy Based Deep Reinforcement Learning and Intelligent Routing

Anum Mushtaq , Irfan ul Haq , Muhammad Azeem Sarwar , Asifullah Khan , Omair Shafiq

分类：机器学习 | 人工智能

2022-06-28

深度强化学习（DRL）使用多样化的非结构化数据，并使RL能够在高维环境中学习复杂的策略。基于自动驾驶汽车（AVS）的智能运输系统（ITS）为基于政策的DRL提供了绝佳的操场。深度学习体系结构解决了传统算法的计算挑战，同时帮助实现了AV的现实采用和部署。 AVS实施的主要挑战之一是，即使不是可靠和有效地管理的道路上的交通拥堵可能会加剧交通拥堵。考虑到每辆车的整体效果并使用高效和可靠的技术可以真正帮助优化交通流量管理和减少拥堵。为此，我们提出了一个智能的交通管制系统，该系统处理在交叉路口和交叉点后面的复杂交通拥堵场景。我们提出了一个基于DRL的信号控制系统，该系统根据当前交叉点的当前拥塞状况动态调整交通信号。为了应对交叉路口后面的道路上的拥堵，我们使用重新穿线技术来加载道路网络上的车辆。为了实现拟议方法的实际好处，我们分解了数据筒仓，并将所有来自传感器，探测器，车辆和道路结合使用的数据结合起来，以实现可持续的结果。我们使用Sumo微型模拟器进行模拟。我们提出的方法的重要性从结果中体现出来。

translated by 谷歌翻译

Multi-Agent Car Parking using Reinforcement Learning

Omar Tanner

分类：机器学习 | 人工智能

2022-06-22

随着自动驾驶行业的发展，自动驾驶汽车群体的潜在相互作用也随之增长。结合人工智能和模拟的进步，可以模拟此类组，并且可以学习控制内部汽车的安全模型。这项研究将强化学习应用于多代理停车场的问题，在那里，汽车旨在有效地停车，同时保持安全和理性。利用强大的工具和机器学习框架，我们以马尔可夫决策过程的形式与独立学习者一起设计和实施灵活的停车环境，从而利用多代理通信。我们实施了一套工具来进行大规模执行实验，从而取得了超过98.1％成功率的高达7辆汽车的模型，从而超过了现有的单代机构模型。我们还获得了与汽车在我们环境中表现出的竞争性和协作行为有关的几个结果，这些行为的密度和沟通水平各不相同。值得注意的是，我们发现了一种没有竞争的合作形式，以及一种“泄漏”的合作形式，在没有足够状态的情况下，代理商进行了协作。这种工作在自动驾驶和车队管理行业中具有许多潜在的应用，并为将强化学习应用于多机构停车场提供了几种有用的技术和基准。

translated by 谷歌翻译

Attacking Deep Reinforcement Learning-Based Traffic Signal Control Systems with Colluding Vehicles

Ao Qu , Yihong Tang , Wei Ma

分类：机器学习 | 人工智能

2021-11-04

事物互联网（物联网）和人工智能（AI）的快速进步催化了智能城市的自适应交通信号控制系统（ATCS）的开发。特别是，深度增强学习（DRL）方法产生最先进的性能，并且具有很大的实际应用潜力。在现有的基于DRL的ATC中，受控信号从附近车辆收集交通状态信息，然后可以基于收集的信息确定最佳动作（例如，切换阶段）。 DRL模型完全“信任”该车辆正在向信号发送真实信息，使ATC易受伪造信息的对抗攻击。鉴于此，本文首次制定了一种新颖的任务，其中一组车辆可以协同地发送伪造的信息，以“欺骗”基于DRL的ATC，以节省他们的总旅行时间。为了解决拟议的任务，我们开发了由道路状语编码器，车辆解释器和通信机制组成的通用和有效的车辆斗争框架。我们采用我们的方法来攻击建立的基于DRL的ATC，并证明拼拼载的总行程时间可以通过合理数量的学习剧集显着减少，并且如果拼的车辆的数量增加，勾结效果将减小。此外，还提供了对基于DRL的ATC的实际部署的见解和建议。研究结果可以帮助提高ATC的可靠性和鲁棒性，并更好地保护智能移动系统。

translated by 谷歌翻译

EMVLight: A Decentralized Reinforcement Learning Framework for Efficient Passage of Emergency Vehicles

Haoran Su , Yaofeng Desmond Zhong , Biswadip Dey , Amit Chakraborty

分类：机器学习

2021-09-12

紧急车辆（EMV）在应对诸如市区的医疗紧急情况和火灾爆发等时间关键事件方面起着至关重要的作用。 EMV花费在交通中旅行的时间越多，越有助于挽救人们的生命并减少财产损失的可能性就越大。为了减少EMV的旅行时间，先前的工作已根据历史流量流数据和基于最佳路线的流量信号进行优化。但是，流量信号的预先避免动态更改流量，从而改变了EMV的最佳路线。此外，交通信号的先发制人通常会导致交通流量的重大干扰，并随后增加非EMV的旅行时间。在本文中，我们提出了EMVLIGHT，这是一个分散的增强学习（RL）框架，用于同时动态路由和交通信号控制。 EMVLIGHT扩展了Dijkstra的算法，以实时更新EMV的最佳路由，因为它通过流量网络传播。分散的RL代理学习网络级的合作交通信号阶段策略，这些策略不仅减少EMV旅行时间，而且还减少了网络中非EMV的平均旅行时间。通过合成和现实世界地图的全面实验证明了这一好处。这些实验表明，EMVLIGHT优于基准运输工程技术和现有的基于RL的信号控制方法。

translated by 谷歌翻译

Progress and summary of reinforcement learning on energy management of MPS-EV

Jincheng Hu , Yang Lin , Liang Chu , Zhuoran Hou , Jihan Li , Jingjing Jiang , Yuanjian Zhang

分类：机器学习

2022-11-08

The high emission and low energy efficiency caused by internal combustion engines (ICE) have become unacceptable under environmental regulations and the energy crisis. As a promising alternative solution, multi-power source electric vehicles (MPS-EVs) introduce different clean energy systems to improve powertrain efficiency. The energy management strategy (EMS) is a critical technology for MPS-EVs to maximize efficiency, fuel economy, and range. Reinforcement learning (RL) has become an effective methodology for the development of EMS. RL has received continuous attention and research, but there is still a lack of systematic analysis of the design elements of RL-based EMS. To this end, this paper presents an in-depth analysis of the current research on RL-based EMS (RL-EMS) and summarizes the design elements of RL-based EMS. This paper first summarizes the previous applications of RL in EMS from five aspects: algorithm, perception scheme, decision scheme, reward function, and innovative training method. The contribution of advanced algorithms to the training effect is shown, the perception and control schemes in the literature are analyzed in detail, different reward function settings are classified, and innovative training methods with their roles are elaborated. Finally, by comparing the development routes of RL and RL-EMS, this paper identifies the gap between advanced RL solutions and existing RL-EMS. Finally, this paper suggests potential development directions for implementing advanced artificial intelligence (AI) solutions in EMS.

translated by 谷歌翻译

Towards Real-World Deployment of Reinforcement Learning for Traffic Signal Control

Arthur Müller , Vishal Rangras , Georg Schnittker , Michael Waldmann , Maxim Friesen , Tobias Ferfers , Lukas Schreckenberg , Florian Hufen , Jürgen Jasperneite , Marco Wiering

分类：机器学习

2021-03-30

交叉路口交通信号控制器（TSC）中的次优化控制策略有助于拥堵，导致对人类健康和环境的负面影响。交通信号控制的强化学习（RL）是设计更好控制政策的有希望的方法，并近年来吸引了相当大的研究兴趣。但是，在该区域中完成的大多数工作使用了交通方案的简化仿真环境，以培训基于RL的TSC。要在现实世界流量系统中部署RL，必须关闭简化的仿真环境和现实应用程序之间的差距。因此，我们提出了一个基准工具，将RL代理作为TSC的基准工具，在Lemgo的德国中型镇的逼真模拟环境中。除了现实的仿真模型之外，LEMGORL还包括交通信号逻辑单元，可确保符合所有监管和安全要求。 LEMGORL提供与Killknown Openai健身房工具包相同的界面，以便在现有的研究工作中轻松进行部署。为了演示LemGorl的功能和适用性，我们利用分布式和并行RL的框架训练CPU群集的最先进的深rl算法，并将其性能与其他方法进行比较。我们的基准工具推动了RL算法对现实世界的应用。

translated by 谷歌翻译

CVLight: Decentralized Learning for Adaptive Traffic Signal Control with Connected Vehicles

Wangzhi Li , Mobin Zhao , Yongjie Fu , Kangrui Ruan , Xuan Di

分类：机器学习 | 人工智能

2021-04-21

本文开发了用于多交叉路口自适应交通信号控制（TSC）的分散增强学习（RL）方案，称为“CVlight”，其利用从连接的车辆（CVS）收集的数据。国家和奖励设计促进了代理商之间的协调，并考虑由CVS收集的旅行延误。提出了一种新颖的算法，非对称优势演员 - 评论家（EB-A2C），其中CV和非CV信息都用于培训批评网络，而仅使用CV信息来执行最佳信号定时。综合实验表明，CVlight的优越性在一个2×2合成道路网络下的最先进的算法，各种交通需求模式和穿透速率。然后，学习的政策被可视化以进一步展示ASYM-A2C的优点。采用火车前技术来提高CVlight的可扩展性，这显着缩短了培训时间，并在5×5路网络下表现出性能的优势。在美国宾夕法尼亚州宾夕法尼亚州州学院的2×2路网络上进行了一个案例研究，以进一步展示了在现实世界方案下所提出的算法的有效性。与其他基线模型相比，训练有素的CVlight代理可以仅基于CV数据有效地控制多个交叉点，达到最佳性能，特别是在低CV渗透率下。

translated by 谷歌翻译

Graph Reinforcement Learning Application to Co-operative Decision-Making in Mixed Autonomy Traffic: Framework, Survey, and Challenges

Qi Liu , Xueyuan Li , Zirui Li , Jingda Wu , Guodong Du , Xin Gao , Fan Yang , Shihua Yuan

分类：机器人

2022-11-06

Proper functioning of connected and automated vehicles (CAVs) is crucial for the safety and efficiency of future intelligent transport systems. Meanwhile, transitioning to fully autonomous driving requires a long period of mixed autonomy traffic, including both CAVs and human-driven vehicles. Thus, collaboration decision-making for CAVs is essential to generate appropriate driving behaviors to enhance the safety and efficiency of mixed autonomy traffic. In recent years, deep reinforcement learning (DRL) has been widely used in solving decision-making problems. However, the existing DRL-based methods have been mainly focused on solving the decision-making of a single CAV. Using the existing DRL-based methods in mixed autonomy traffic cannot accurately represent the mutual effects of vehicles and model dynamic traffic environments. To address these shortcomings, this article proposes a graph reinforcement learning (GRL) approach for multi-agent decision-making of CAVs in mixed autonomy traffic. First, a generic and modular GRL framework is designed. Then, a systematic review of DRL and GRL methods is presented, focusing on the problems addressed in recent research. Moreover, a comparative study on different GRL methods is further proposed based on the designed framework to verify the effectiveness of GRL methods. Results show that the GRL methods can well optimize the performance of multi-agent decision-making for CAVs in mixed autonomy traffic compared to the DRL methods. Finally, challenges and future research directions are summarized. This study can provide a valuable research reference for solving the multi-agent decision-making problems of CAVs in mixed autonomy traffic and can promote the implementation of GRL-based methods into intelligent transportation systems. The source code of our work can be found at https://github.com/Jacklinkk/Graph_CAVs.

translated by 谷歌翻译

Eco-driving for Electric Connected Vehicles at Signalized Intersections: A Parameterized Reinforcement Learning approach

Xia Jiang , Jian Zhang , Dan Li

分类：机器人 | 人工智能

2022-06-24

本文提出了一个基于加固学习（RL）的电动连接车辆（CV）的生态驾驶框架，以提高信号交叉点的车辆能效。通过整合基于型号的汽车策略，改变车道的政策和RL政策来确保车辆代理的安全操作。随后，制定了马尔可夫决策过程（MDP），该过程使车辆能够执行纵向控制和横向决策，从而共同优化了交叉口附近CVS的CAR跟踪和改变车道的行为。然后，将混合动作空间参数化为层次结构，从而在动态交通环境中使用二维运动模式训练代理。最后，我们所提出的方法从基于单车的透视和基于流的透视图中在Sumo软件中进行了评估。结果表明，我们的策略可以通过学习适当的动作方案来大大减少能源消耗，而不会中断其他人类驱动的车辆（HDVS）。

translated by 谷歌翻译

Safe and Psychologically Pleasant Traffic Signal Control with Reinforcement Learning using Action Masking

Arthur Müller , Matthia Sabatelli

分类：机器学习

2022-06-21

交通信号控制（TSC）的增强学习（RL）在模拟中显示出比常规方法更好的控制交通流量的性能。但是，由于几个挑战，该领域尚未部署基于RL的TSC。实际部署的一个主要挑战是确保在操作过程中始终满足所有安全要求。我们提出了一种方法，可以通过使用设计安全的动作空间来确保现实世界中的安全性。动作空间包括交通阶段，代表交叉路口的非冲突信号颜色的组合。此外，动作掩盖机制可确保仅进行适当的相变。现实世界部署的另一个挑战是确保控制行为避免道路使用者压力。我们通过扩展动作掩盖机制来结合域知识来演示如何实现这一目标。我们在现实的模拟方案中测试和验证我们的方法。通过确保安全性和心理愉悦的控制行为，我们的方法推动了RL为TSC的现实部署的发展。

translated by 谷歌翻译

The Real Deal: A Review of Challenges and Opportunities in Moving Reinforcement Learning-Based Traffic Signal Control Systems Towards Reality

Rex Chen , Fei Fang , Norman Sadeh

分类：人工智能 | 机器学习

2022-06-23

交通信号控制（TSC）是一个高风险域，随着交通量在全球的增长而增长。越来越多的作品将加固学习（RL）应用于TSC；RL可以利用大量的流量数据来提高信号效率。但是，从未部署基于RL的信号控制器。在这项工作中，我们提供了对TSC进行RL之前必须解决的挑战的首次审查。我们专注于四个涉及（1）检测不确定性的挑战，（2）通信的可靠性，（3）合规性和解释性以及（4）异构道路使用者。我们表明，基于RL的TSC的文献在应对每个挑战方面取得了一些进展。但是，更多的工作应采用系统思维方法，以考虑其他管道组件对RL的影响。

translated by 谷歌翻译

Congested Urban Networks Tend to Be Insensitive to Signal Settings: Implications for Learning-Based Control

Jorge Laval , Hao Zhou

分类：机器学习

2020-08-21

本文重点介绍了大型城市网络的几个属性，这些属性可能会影响应用于交通信号控制的机器学习方法。特别是，我们表明，随着密度的增加，平均网络流往往独立于信号控制策略。到目前为止，这种属性一直存在于雷达之下，这意味着在拥挤的条件下训练时，深厚的增强学习（DRL）方法变得无效，并且可能解释了DRL在交通信号控制方面的成功有限。我们的结果适用于所有可能的网格网络，这要归功于基于两个网络参数的参数化：连续交通信号灯与预期绿色时间之间的预期距离和交叉点的转弯概率的比率。具有不同参数的网络对流量信号控制的响应非常不同。值得注意的是，我们发现没有控制（即随机政策）可以成为一个令人惊讶的大型网络家庭的有效控制策略。对于基线和DRL政策而言，转向概率的影响都非常重要。它还解释了这些策略观察到的对称性的丧失，这并不能由依赖走廊近似没有转弯的现有理论捕获。我们的发现还表明，监督的学习方法具有巨大的潜力，因为它们几乎不需要实例来制定出色的政策。

translated by 谷歌翻译

Cooperative Reinforcement Learning on Traffic Signal Control

Chi-Chun Chao , Jun-Wei Hsieh , Bor-Shiun Wang

分类：人工智能

2022-05-23

交通信号控制是一个具有挑战性的现实问题，旨在通过协调道路交叉路口的车辆移动来最大程度地减少整体旅行时间。现有使用中的流量信号控制系统仍然很大程度上依赖于过度简化的信息和基于规则的方法。具体而言，可以将绿色/红灯交替的周期性视为在策略优化中对每个代理进行更好计划的先验。为了更好地学习这种适应性和预测性先验，传统的基于RL的方法只能从只有本地代理的预定义动作池返回固定的长度。如果这些代理之间没有合作，则某些代理商通常会对其他代理产生冲突，从而减少整个吞吐量。本文提出了一个合作，多目标体系结构，具有年龄段的权重，以更好地估算流量信号控制优化的多重奖励条款，该奖励术语称为合作的多目标多代理多代理深度确定性策略梯度（Comma-ddpg）。运行的两种类型的代理可以最大程度地提高不同目标的奖励 - 一种用于每个交叉路口的本地流量优化，另一种用于全球流量等待时间优化。全球代理用于指导本地代理作为帮助更快学习的手段，但在推理阶段不使用。我们还提供了解决溶液存在的分析，并为提出的RL优化提供了融合证明。使用亚洲国家的交通摄像机收集的现实世界流量数据进行评估。我们的方法可以有效地将总延迟时间减少60 \％。结果表明，与SOTA方法相比，其优越性。

translated by 谷歌翻译

Reinforcement Learning for Ridesharing: An Extended Survey

Zhiwei Qin , Hongtu Zhu , Jieping Ye

分类：机器学习 | 人工智能

2021-05-03

在本文中，我们介绍了有关典型乘车共享系统中决策优化问题的强化学习方法的全面，深入的调查。涵盖了有关乘车匹配，车辆重新定位，乘车，路由和动态定价主题的论文。在过去的几年中，大多数文献都出现了，并且要继续解决一些核心挑战：模型复杂性，代理协调和多个杠杆的联合优化。因此，我们还引入了流行的数据集和开放式仿真环境，以促进进一步的研发。随后，我们讨论了有关该重要领域的强化学习研究的许多挑战和机会。

translated by 谷歌翻译

Interaction-aware Decision-making for Automated Vehicles using Social Value Orientation

Luca Crosato , Hubert P. H. Shum , Edmond S. L. Ho , Chongfeng Wei

分类：机器人

2022-07-12

行人在场的运动控制算法对于开发安全可靠的自动驾驶汽车（AV）至关重要。传统运动控制算法依赖于手动设计的决策政策，这些政策忽略了AV和行人之间的相互作用。另一方面，深度强化学习的最新进展允许在没有手动设计的情况下自动学习政策。为了解决行人在场的决策问题，作者介绍了一个基于社会价值取向和深入强化学习（DRL）的框架，该框架能够以不同的驾驶方式生成决策政策。该政策是在模拟环境中使用最先进的DRL算法培训的。还引入了适合DRL训练的新型计算效率的行人模型。我们执行实验以验证我们的框架，并对使用两种不同的无模型深钢筋学习算法获得的策略进行了比较分析。模拟结果表明，开发的模型如何表现出自然的驾驶行为，例如短暂的驾驶行为，以促进行人的穿越。

translated by 谷歌翻译

Microscopic traffic simulation using sumo

分类：

Microscopic traffic simulation is an invaluable tool for traffic research. In recent years, both the scope of research and the capabilities of the tools have been extended considerably. This article presents the latest developments concerning intermodal traffic solutions, simulator coupling and model development and validation on the example of the open source traffic simulator SUMO.

translated by 谷歌翻译

Learning the policy for mixed electric platoon control of automated and human-driven vehicles at signalized intersection: a random search approach

Xia Jiang , Jian Zhang , Xiaoyu Shi , Jian Cheng

分类：机器人

2022-06-24

在过去的几十年中，车辆的升级和更新加速了。出于对环境友好和情报的需求，电动汽车（EV）以及连接和自动化的车辆（CAVS）已成为运输系统的新组成部分。本文开发了一个增强学习框架，以在信号交叉点上对由骑士和人类驱动车辆（HDV）组成的电力排实施自适应控制。首先，提出了马尔可夫决策过程（MDP）模型来描述混合排的决策过程。新颖的状态表示和奖励功能是为模型设计的，以考虑整个排的行为。其次，为了处理延迟的奖励，提出了增强的随机搜索（ARS）算法。代理商所学到的控制政策可以指导骑士的纵向运动，后者是排的领导者。最后，在模拟套件相扑中进行了一系列模拟。与几种最先进的（SOTA）强化学习方法相比，提出的方法可以获得更高的奖励。同时，仿真结果证明了延迟奖励的有效性，延迟奖励的有效性均优于分布式奖励机制}与正常的汽车跟随行为相比，灵敏度分析表明，可以将能量保存到不同的扩展（39.27％-82.51％））通过调整优化目标的相对重要性。在没有牺牲行进延迟的前提下，建议的控制方法可以节省多达53.64％的电能。

translated by 谷歌翻译