Platoon-Centric Green Light Optimal Speed Advisory Using Safe Reinforcement Learning

📄 arXiv: 2509.12378v1 📥 PDF

作者: Ruining Yang, Jingyuan Zhou, Qiqing Wang, Jinhao Liang, Kaidi Yang

分类: eess.SY

发布日期: 2025-09-15


💡 一句话要点

提出基于安全强化学习的 platoon-centric GLOSA 系统,优化混合交通流中的 CAV 节能与安全。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 绿灯最优速度建议 强化学习 控制障碍函数 车联网自动驾驶 多智能体系统

📋 核心要点

  1. 现有GLOSA方法侧重于单个CAV优化,忽略了对混合交通车队整体效率的影响,导致交通流不畅。
  2. 提出一种基于安全强化学习的 platoon-centric GLOSA 系统,通过多智能体控制优化车队速度,平衡节能与效率。
  3. 实验结果表明,该方法在驾驶安全和车队能源消耗方面优于现有方法,验证了其有效性。

📝 摘要(中文)

随着车联网自动驾驶车辆(CAV)的快速发展,绿灯最优速度建议(GLOSA)作为一种有前景的节能驾驶策略,可以减少车辆在交叉路口的停车次数和怠速时间,从而降低能源消耗和排放。然而,现有研究通常只关注单个CAV的能源和通行效率,而忽略了它们对整个混合交通车队的影响,导致交通效率低下。强化学习(RL)虽然有潜力实现混合交通环境下的车队级控制,但其训练面临着(i)车辆跟随安全,即CAV不应与前方车辆发生碰撞,以及(ii)红灯安全,即CAV不应闯红灯的挑战。为了解决这些问题,本文开发了一种基于安全强化学习的 platoon-centric GLOSA 系统,该系统使用多智能体控制器来优化CAV速度,同时实现能源消耗和通行效率之间的平衡。我们进一步将控制障碍函数(CBF)融入到基于RL的策略中,从而在车辆跟随安全和红灯安全方面提供显式的安全保证。仿真结果表明,我们提出的方法在驾驶安全和车队能源消耗方面优于最先进的方法。

🔬 方法详解

问题定义:论文旨在解决混合交通流中,现有绿灯最优速度建议(GLOSA)方法仅考虑单个联网自动驾驶车辆(CAV)的节能和通行效率,而忽略了对整个车队的影响,导致交通效率低下的问题。此外,如何保证 CAV 在强化学习训练过程中的车辆跟随安全(避免碰撞)和红灯安全(避免闯红灯)也是一个挑战。

核心思路:论文的核心思路是设计一个 platoon-centric 的 GLOSA 系统,即以车队为中心,通过多智能体强化学习来优化车队中 CAV 的速度,从而提升整体的交通效率和节能效果。同时,利用控制障碍函数(CBF)来显式地保证 CAV 在学习过程中的安全约束,避免发生碰撞和闯红灯等危险行为。

技术框架:该系统采用多智能体强化学习框架,每个 CAV 作为一个智能体,通过与环境交互学习最优的速度控制策略。整体流程包括:1)环境建模:建立混合交通流的仿真环境,包括车辆动力学模型、交通信号灯模型等;2)状态空间、动作空间和奖励函数设计:定义 CAV 的状态、可执行的动作以及奖励函数,奖励函数需要同时考虑节能、通行效率和安全性;3)基于强化学习的策略学习:使用强化学习算法(例如,Actor-Critic 方法)训练 CAV 的速度控制策略;4)安全约束集成:将控制障碍函数(CBF)集成到强化学习策略中,以保证安全约束;5)仿真验证:在仿真环境中验证所提出方法的性能。

关键创新:该论文的关键创新在于:1)提出了 platoon-centric 的 GLOSA 策略,从车队整体的角度优化交通效率和节能效果;2)将控制障碍函数(CBF)与强化学习相结合,为 CAV 的安全驾驶提供了显式的安全保证,解决了强化学习训练过程中安全性难以保证的问题。

关键设计:论文的关键设计包括:1)奖励函数的设计,需要仔细权衡节能、通行效率和安全性之间的关系;2)控制障碍函数(CBF)的设计,需要根据车辆动力学模型和交通规则,精确地定义安全约束;3)强化学习算法的选择和参数调整,需要根据具体的交通环境和 CAV 的性能进行优化。

📊 实验亮点

仿真结果表明,所提出的基于安全强化学习的 platoon-centric GLOSA 系统在驾驶安全和车队能源消耗方面优于现有方法。具体而言,该方法能够显著降低车队的平均能源消耗,同时保证 CAV 在行驶过程中的安全,避免碰撞和闯红灯等危险行为。量化指标的提升幅度未知,需要在论文中查找具体数据。

🎯 应用场景

该研究成果可应用于智能交通系统、自动驾驶车辆控制等领域。通过优化车队速度,可以有效降低城市交通的能源消耗和排放,提高交通效率,并提升驾驶安全性。未来,该技术有望在智慧城市建设和可持续交通发展中发挥重要作用。

📄 摘要(原文)

With recent advancements in Connected Autonomous Vehicles (CAVs), Green Light Optimal Speed Advisory (GLOSA) emerges as a promising eco-driving strategy to reduce the number of stops and idle time at intersections, thereby reducing energy consumption and emissions. Existing studies typically improve energy and travel efficiency for individual CAVs without considering their impacts on the entire mixed-traffic platoon, leading to inefficient traffic flow. While Reinforcement Learning (RL) has the potential to achieve platoon-level control in a mixed-traffic environment, the training of RL is still challenged by (i) car-following safety, i.e., CAVs should not collide with their immediate preceding vehicles, and (ii) red-light safety, i.e., CAVs should not run red lights. To address these challenges, this paper develops a platoon-centric, safe RL-based GLOSA system that uses a multi-agent controller to optimize CAV speed while achieving a balance between energy consumption and travel efficiency. We further incorporate Control Barrier Functions (CBFs) into the RL-based policy to provide explicit safety guarantees in terms of car-following safety and red-light safety. Our simulation results illustrate that our proposed method outperforms state-of-the-art methods in terms of driving safety and platoon energy consumption.