我们考虑在微观级别的坡道计量,但受车辆安全限制的约束。交通网络由带有多个在越野和外坡道的环路抽象。车辆到达坡道的到达时间及其目的地外坡道是由外源随机过程建模的。一旦车辆从坡道上释放出来,如果没有另一辆车阻塞,它就会加速自由流速。一旦它靠近另一辆车,便会采用安全的行为。车辆到达目的地外坡道后,车辆将退出交通网络。我们设计流量响应的坡道计量策略,以最大程度地提高网络的饱和区域。策略的饱和区域定义为一组需求,即到达率和路由矩阵,所有坡道的队列长度都在预期中保持限制。提出的坡道计量策略是在同步循环下运行的,在此期间,坡道在周期开始时不会释放更多的车辆长度。我们提供三个策略,分别在周期结束时分别暂停每个坡度(i)暂停时间间隔,或(ii)在周期内调节释放率,或(iii)采用保守的安全性在周期中释放的标准。但是,所有政策都不需要有关需求的信息。这些策略的饱和区域的特征是研究诱导的马尔可夫链的随机稳定性,当所有坡道的合并速度等于自由流速时,被证明是最大的。提供模拟以说明政策的性能。
translated by 谷歌翻译
配子等合作驾驶系统,依靠沟通和信息交换,为每个特工创造情境感知。因此,控制部件的设计和性能与通信部件性能紧密耦合。车辆之间的信息流可以显着影响排的动态。因此,排列的性能和稳定性不仅取决于车辆的控制器,还取决于信息流拓扑(IFT)。 IFT可能导致某些排特性的限制,即稳定性和可扩展性。蜂窝载体 - 一切(C-V2X)已成为支持连接和自动化车辆应用的主要通信技术之一。由于数据包丢失,无线通道会创建随机链路中断和网络拓扑的变化。在本文中,我们使用一阶马尔可夫模型模拟车辆之间的通信链路,以捕获每个链路的普遍时间相关性。这些模型通过在系统设计阶段期间的通信链路更好地近似来实现性能评估。我们的方法是使用实​​验中的数据来使用马尔可夫链的分组间隙(IPG)和连续IPG状态的过渡概率矩阵来模拟分组间隙(IPG)。使用基于各种不同车辆密度和通信率的经验数据来源的模型从高保真模拟中收集训练数据。利用IPG模型,我们分析了一家车辆的平均方形稳定性,标准共识协议调整了理想的通信,并比较不同情景的性能下降。
translated by 谷歌翻译
自主的改进提供了许多域中积极成果的潜力,但保证了他们的安全部署是困难的。这项工作调查了人们如何智能地监督代理商,即使在表现担保是难以捉摸的情况下,即使性能保证也是如此达到一些安全性。激励研究问题是:在安全关键环境中,我们可以避免有必要始终有一台机器吗?本文正式化了这一“缩放监督”问题,并调查其在融入交通的自治车辆(AVS)的安全关键背景下。它提出了一种保守的,可达性的方法,以减少AVS人类主管的负担,这允许在此环境中建立高信任上限。通过深度加强学习学习序列和流量模拟分析,在数字上,AVS的组合可以在AV采用中进行监督时间。一个关键的外卖是,尽管存在AVS的不完美,但由于AVS部署了EN Masse,监督变得更具易行。虽然这项工作侧重于AVS,但可扩展的监督框架与更广泛的自主控制挑战阵列相关。
translated by 谷歌翻译
一般而言,融合是人类驱动因素和自治车辆的具有挑战性的任务,特别是在密集的交通中,因为合并的车辆通常需要与其他车辆互动以识别或创造间隙并安全合并。在本文中,我们考虑了强制合并方案的自主车辆控制问题。我们提出了一种新的游戏 - 理论控制器,称为领导者跟随者游戏控制器(LFGC),其中自主EGO车辆和其他具有先验不确定驾驶意图的车辆之间的相互作用被建模为部分可观察到的领导者 - 跟随游戏。 LFGC估计基于观察到的轨迹的其他车辆在线在线,然后预测其未来的轨迹,并计划使用模型预测控制(MPC)来同时实现概率保证安全性和合并目标的自我车辆自己的轨迹。为了验证LFGC的性能,我们在模拟和NGSIM数据中测试它,其中LFGC在合并中展示了97.5%的高成功率。
translated by 谷歌翻译
本文提出了一个基于加固学习(RL)的电动连接车辆(CV)的生态驾驶框架,以提高信号交叉点的车辆能效。通过整合基于型号的汽车策略,改变车道的政策和RL政策来确保车辆代理的安全操作。随后,制定了马尔可夫决策过程(MDP),该过程使车辆能够执行纵向控制和横向决策,从而共同优化了交叉口附近CVS的CAR跟踪和改变车道的行为。然后,将混合动作空间参数化为层次结构,从而在动态交通环境中使用二维运动模式训练代理。最后,我们所提出的方法从基于单车的透视和基于流的透视图中在Sumo软件中进行了评估。结果表明,我们的策略可以通过学习适当的动作方案来大大减少能源消耗,而不会中断其他人类驱动的车辆(HDVS)。
translated by 谷歌翻译
Traffic jams occurring on highways cause increased travel time as well as increased fuel consumption and collisions. Traffic jams without a clear cause, such as an on-ramp or an accident, are called phantom traffic jams and are said to make up 50% of all traffic jams. They are the result of an unstable traffic flow caused by human driving behavior. Automating the longitudinal vehicle motion of only 5% of all cars in the flow can dissipate phantom traffic jams. However, driving automation introduces safety issues when human drivers need to take over the control from the automation. We investigated whether phantom traffic jams can be dissolved using haptic shared control. This keeps humans in the loop and thus bypasses the problem of humans' limited capacity to take over control, while benefiting from most advantages of automation. In an experiment with 24 participants in a driving simulator, we tested the effect of haptic shared control on the dynamics of traffic flow, and compared it with manual control and full automation. We also investigated the effect of two control types on participants' behavior during simulated silent automation failures. Results show that haptic shared control can help dissipating phantom traffic jams better than fully manual control but worse than full automation. We also found that haptic shared control reduces the occurrence of unsafe situations caused by silent automation failures compared to full automation. Our results suggest that haptic shared control can dissipate phantom traffic jams while preventing safety risks associated with full automation.
translated by 谷歌翻译
我们解决了由具有不同驱动程序行为的道路代理人填充的密集模拟交通环境中的自我车辆导航问题。由于其异构行为引起的代理人的不可预测性,这种环境中的导航是挑战。我们提出了一种新的仿真技术,包括丰富现有的交通模拟器,其具有与不同程度的侵略性程度相对应的行为丰富的轨迹。我们在驾驶员行为建模算法的帮助下生成这些轨迹。然后,我们使用丰富的模拟器培训深度加强学习(DRL)策略,包括一组高级车辆控制命令,并在测试时间使用此策略来执行密集流量的本地导航。我们的政策隐含地模拟了交通代理商之间的交互,并计算了自助式驾驶员机动,例如超速,超速,编织和突然道路变化的激进驾驶员演习的安全轨迹。我们增强的行为丰富的模拟器可用于生成由对应于不同驱动程序行为和流量密度的轨迹组成的数据集,我们的行为的导航方案可以与最先进的导航算法相结合。
translated by 谷歌翻译
预计自动驾驶技术不仅可以提高移动性和道路安全性,还可以提高能源效率的益处。在可预见的未来,自动车辆(AVS)将在与人机车辆共享的道路上运行。为了保持安全性和活力,同时尽量减少能耗,AV规划和决策过程应考虑自动自动驾驶车辆与周围的人机车辆之间的相互作用。在本章中,我们描述了一种通过基于认知层次理论和强化学习开发人的驾驶员行为建模来开发共用道路上的节能自主驾驶政策的框架。
translated by 谷歌翻译
随着自动组件比例越来越多的新兴车辆系统提供了最佳控制的机会,以减轻交通拥堵和提高效率。最近有兴趣将深入增强学习(DRL)应用于这些非线性动力学系统,以自动设计有效的控制策略。尽管DRL是无模型的概念优势,但研究通常仍依赖于对特定车辆系统的艰苦训练设置。这是对各种车辆和机动性系统有效分析的关键挑战。为此,本文贡献了一种简化的用于车辆微仿真的方法,并以最少的手动设计发现了高性能控制策略。提出了一种可变的代理,多任务方法,以优化车辆部分观察到的马尔可夫决策过程。该方法在混合自治交通系统上进行了实验验证,该系统是自动化的。在六种不同的开放或封闭交通系统的所有配置中都可以观察到经验改进,通常比人类驾驶基线的15-60%。该研究揭示了许多紧急行为类似于缓解波浪,交通信号传导和坡道计量。最后,对新兴行为进行了分析,以产生可解释的控制策略,这些控制策略已通过学习的控制策略进行了验证。
translated by 谷歌翻译
本文重点介绍了大型城市网络的几个属性,这些属性可能会影响应用于交通信号控制的机器学习方法。特别是,我们表明,随着密度的增加,平均网络流往往独立于信号控制策略。到目前为止,这种属性一直存在于雷达之下,这意味着在拥挤的条件下训练时,深厚的增强学习(DRL)方法变得无效,并且可能解释了DRL在交通信号控制方面的成功有限。我们的结果适用于所有可能的网格网络,这要归功于基于两个网络参数的参数化:连续交通信号灯与预期绿色时间之间的预期距离和交叉点的转弯概率的比率。具有不同参数的网络对流量信号控制的响应非常不同。值得注意的是,我们发现没有控制(即随机政策)可以成为一个令人惊讶的大型网络家庭的有效控制策略。对于基线和DRL政策而言,转向概率的影响都非常重要。它还解释了这些策略观察到的对称性的丧失,这并不能由依赖走廊近似没有转弯的现有理论捕获。我们的发现还表明,监督的学习方法具有巨大的潜力,因为它们几乎不需要实例来制定出色的政策。
translated by 谷歌翻译
基于神经网络的驾驶规划师在改善自动驾驶的任务绩效方面表现出了巨大的承诺。但是,确保具有基于神经网络的组件的系统的安全性,尤其是在密集且高度交互式的交通环境中,这是至关重要的,但又具有挑战性。在这项工作中,我们为基于神经网络的车道更改提出了一个安全驱动的互动计划框架。为了防止过度保守计划,我们确定周围车辆的驾驶行为并评估其侵略性,然后以互动方式相应地适应了计划的轨迹。如果在预测的最坏情况下,即使存在安全的逃避轨迹,则自我车辆可以继续改变车道;否则,它可以停留在当前的横向位置附近或返回原始车道。我们通过广泛而全面的实验环境以及在自动驾驶汽车公司收集的现实情况下进行了广泛的模拟,定量证明了计划者设计的有效性及其优于基线方法的优势。
translated by 谷歌翻译
研究表明,自治车辆(AVS)在由人类驱动因素组成的交通环境中保守,不适应当地条件和社会文化规范。众所周知,如果存在理解人类驱动程序的行为,则可以设计社会意识的AVS。我们提出了一种利用机器学习来预测人类驱动程序的行为的方法。这类似于人类如何隐含地解释道路上司机的行为,只能观察其车辆的轨迹。我们使用图形理论工具从轨迹和机器学习中提取驾驶员行为特征,以在流量和驾驶员行为中获得车辆的提取轨迹之间的计算映射。与此域中的现有方法相比,我们证明我们的方法是强大的,一般的,并且可扩展到广泛的应用程序,如自主导航。我们评估我们在美国,印度,中国和新加坡捕获的现实世界交通数据集以及模拟中的方法。
translated by 谷歌翻译
作为一项新兴技术,据信,连接的自动驾驶汽车能够以更高的效率通过交叉点,并且与基于预先设计的基于模型或基于优化的计划通过计划相比,已经进行了数十年的相关研究,这是相比的。在过去两年中,自主交叉管理(AIM)领域(AIM)领域的分布强化学习才开始出现,并面临许多挑战。我们的研究设计了一个多级学习框架,具有各种观察范围,动作步骤和奖励期,以充分利用车辆周围的信息,并帮助找出所有车辆的最佳交互策略。我们的实验已证明,与没有它的RL相比,与RL相比,该框架可以显着提高安全性,并提高效率与基线相比。
translated by 谷歌翻译
本文研究了黑盒安全测试配置中基于方案的安全测试算法。对于与不同采样分布共享相同州行动集覆盖的算法,通常认为优先考虑探索高风险状态现象会提高采样效率。我们的提案通过引入不可能的定理来对上述直觉提出异议,该定理可证明显示上述差异的所有安全测试算法,同样具有相同的预期采样效率。此外,对于涵盖不同状态活动集的测试算法,采样效率标准不再适用,因为不同的算法不一定会收敛到相同的终止条件。然后,我们提出了基于几乎安全集合概念的测试攻击性定义,以及一种无偏和有效的算法,比较了测试算法之间的侵略性。还提出了来自两足球运动控制器和车辆决策模块的安全测试的经验观察,以支持提出的理论意义和方法。
translated by 谷歌翻译
我们在$ gi/gi/1 $队列中研究动态定价和容量大小问题,服务提供商的目标是获得最佳服务费$ p $ $ p $和服务能力$ \ mu $,以最大程度地提高累积预期利润(服务收入减去人员配备成本和延迟罚款)。由于排队动力学的复杂性质,这种问题没有分析解决方案,因此以前的研究经常诉诸于交通重型分析,在这种分析中,到达率和服务率都发送到无穷大。在这项工作中,我们提出了一个旨在解决此问题的在线学习框架,该框架不需要系统的规模增加。我们的框架在队列(GOLIQ)中被称为基于梯度的在线学习。 Goliq将时间范围组织为连续的操作周期,并开出了有效的程序,以使用先前的周期中收集的数据在每个周期中获得改进的定价和人员配备策略。此处的数据包括客户到达的数量,等待时间和服务器的繁忙时间。这种方法的创造力在于其在线性质,这使服务提供商可以通过与环境进行互动来更好。 GOLIQ的有效性得到了(i)理论结果的证实,包括算法收敛和遗憾分析(对数遗憾的束缚),以及(ii)通过模拟实验进行工程确认,以了解各种代表性$ GI/GI/GI/1 $ $ $ $ $。
translated by 谷歌翻译
本文考虑了一个移动机器人的轨迹计划,该机器人在遥远的通信节点对之间持续中继数据。数据在每个源处积聚,机器人必须移动到适当的位置,以使数据卸载到相应的目的地。机器人需要最大程度地减少数据在维修之前在源等待的平均时间。我们有兴趣找到由1)位置组成的最佳机器人路由策略,该位置在该位置停止继电器(继电器位置)和2)确定对配对的序列的条件过渡概率。我们首先将这个问题作为一个非凸面问题,可在中继位置和过渡概率上进行优化。为了找到近似解决方案,我们提出了一种新型算法,该算法交替优化继电器位置和过渡概率。对于前者,我们找到了非凸vex继电器区域的有效凸线分区,然后制定混合校准二阶锥体问题。对于后者,我们通过顺序最小二乘编程找到最佳的过渡概率。我们广泛分析了所提出的方法,并在数学上表征了与机器人的长期能耗和服务速率相关的重要系统属性。最后,通过使用真实的通道参数进行广泛的仿真,我们验证了方法的功效。
translated by 谷歌翻译
We consider a long-term average profit maximizing admission control problem in an M/M/1 queuing system with a known arrival rate but an unknown service rate. With a fixed reward collected upon service completion and a cost per unit of time enforced on customers waiting in the queue, a dispatcher decides upon arrivals whether to admit the arriving customer or not based on the full history of observations of the queue-length of the system. \cite[Econometrica]{Naor} showed that if all the parameters of the model are known, then it is optimal to use a static threshold policy - admit if the queue-length is less than a predetermined threshold and otherwise not. We propose a learning-based dispatching algorithm and characterize its regret with respect to optimal dispatch policies for the full information model of \cite{Naor}. We show that the algorithm achieves an $O(1)$ regret when all optimal thresholds with full information are non-zero, and achieves an $O(\ln^{3+\epsilon}(N))$ regret in the case that an optimal threshold with full information is $0$ (i.e., an optimal policy is to reject all arrivals), where $N$ is the number of arrivals and $\epsilon>0$.
translated by 谷歌翻译
交叉路口交叉代表了运输系统的瓶颈和连接的自动驾驶汽车(CAVS)可能是解决问题的开创性解决方案。这项工作提出了一个新颖的框架,即避免到期,其中相交经理(IM)控制着骑士接近交叉点,以最大程度地提高交叉路口的能力,同时最大程度地减少骑士的气体消耗。与文献中的大多数作品相反,骑士的位置不确定性被解释了,定期交流和重新优化允许为骑士创建安全的轨迹。为了提高高流量交叉点的可伸缩性,还开发了(避免事件)事件触发方法,以最小化计算和通信复杂性。避免事件将要求的重新挑选的数量减少92.2%,同时保留避免期间引入的大多数好处。
translated by 谷歌翻译
Safety critical systems involve the tight coupling between potentially conflicting control objectives and safety constraints. As a means of creating a formal framework for controlling systems of this form, and with a view toward automotive applications, this paper develops a methodology that allows safety conditions-expressed as control barrier functionsto be unified with performance objectives-expressed as control Lyapunov functions-in the context of real-time optimizationbased controllers. Safety conditions are specified in terms of forward invariance of a set, and are verified via two novel generalizations of barrier functions; in each case, the existence of a barrier function satisfying Lyapunov-like conditions implies forward invariance of the set, and the relationship between these two classes of barrier functions is characterized. In addition, each of these formulations yields a notion of control barrier function (CBF), providing inequality constraints in the control input that, when satisfied, again imply forward invariance of the set. Through these constructions, CBFs can naturally be unified with control Lyapunov functions (CLFs) in the context of a quadratic program (QP); this allows for the achievement of control objectives (represented by CLFs) subject to conditions on the admissible states of the system (represented by CBFs). The mediation of safety and performance through a QP is demonstrated on adaptive cruise control and lane keeping, two automotive control problems that present both safety and performance considerations coupled with actuator bounds.
translated by 谷歌翻译
我们研究了一个单服务器调度问题,目的是最大程度地降低工作所产生的预期累积持有成本,在该计划中,调度程序未知定义随机工作成本的参数。我们考虑一个允许不同工作类别的一般设置,同一班级的工作在统计上相同的持有成本和服务时间,并且跨课程任意数量的工作数量。在每个时间步骤中,服务器都可以处理作业并观察尚未完成的工作的随机保留成本。我们考虑了一个基于学习的$ C \ MU $规则计划,该计划从固定持续时间的先发制期开始,作为学习阶段,并收集了有关工作的数据,它将切换到非抢占计划。我们的算法旨在处理平均职位持有成本的大小差距的实例,并实现近乎最佳的性能保证。遗憾评估了算法的性能,其中基准是当已知工作参数时,$ c \ mu $规则计划策略可能达到的最低持有成本。我们表现​​出遗憾的下限和算法,这些算法几乎获得了遗憾的上限。我们的数值结果证明了我们的算法的功效,并表明我们的遗憾分析几乎很紧张。
translated by 谷歌翻译