Platoon-Centric Green Light Optimal Speed Advisory Using Safe Reinforcement Learning
作者: Ruining Yang, Jingyuan Zhou, Qiqing Wang, Jinhao Liang, Kaidi Yang
分类: eess.SY
发布日期: 2025-09-15
💡 一句话要点
提出基于安全强化学习的 platoon-centric GLOSA 系统,优化混合交通流中的 CAV 节能与安全。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 绿灯最优速度建议 强化学习 控制屏障函数 车联网自动驾驶 多智能体系统
📋 核心要点
- 现有GLOSA方法侧重于单个CAV优化,忽略了对整个混合交通车队的影响,导致整体交通效率不高。
- 论文提出一种基于安全强化学习的 platoon-centric GLOSA 系统,通过多智能体控制优化车队速度,平衡节能与通行效率。
- 实验结果表明,该方法在驾驶安全和车队能源消耗方面优于现有方法,验证了其有效性。
📝 摘要(中文)
随着车联网自动驾驶车辆(CAVs)的快速发展,绿灯最优速度建议(GLOSA)作为一种有前景的生态驾驶策略,可以减少车辆在交叉路口的停车和怠速时间,从而降低能源消耗和排放。现有研究通常只关注单个CAV的能源和通行效率,而忽略了其对整个混合交通车队的影响,导致交通效率低下。强化学习(RL)虽然有潜力在混合交通环境中实现车队级别的控制,但其训练仍面临(i)车辆跟随安全,即CAV不应与其前方车辆发生碰撞,以及(ii)红灯安全,即CAV不应闯红灯的挑战。为了解决这些问题,本文开发了一种以车队为中心的、基于安全强化学习的GLOSA系统,该系统使用多智能体控制器来优化CAV速度,同时实现能源消耗和通行效率之间的平衡。我们进一步将控制屏障函数(CBFs)融入到基于RL的策略中,从而在车辆跟随安全和红灯安全方面提供显式的安全保证。仿真结果表明,我们提出的方法在驾驶安全和车队能源消耗方面优于最先进的方法。
🔬 方法详解
问题定义:论文旨在解决混合交通流中,现有绿灯最优速度建议(GLOSA)方法仅关注单个联网自动驾驶车辆(CAV)的节能和通行效率优化,而忽略了对整个车队的影响,导致整体交通效率不高的问题。此外,直接应用强化学习进行车队控制面临车辆跟随安全和红灯安全两大挑战。
核心思路:论文的核心思路是以车队为中心,通过多智能体强化学习控制CAV的速度,在优化车队整体能源消耗和通行效率的同时,利用控制屏障函数(CBFs)显式地保证车辆跟随安全和红灯安全。这种方法旨在实现车队级别的协同优化,而非单个车辆的局部优化。
技术框架:该系统采用多智能体强化学习框架,每个CAV作为一个智能体,通过与环境交互学习最优速度策略。整体流程包括:1) 环境建模,模拟混合交通流;2) 状态空间、动作空间和奖励函数设计;3) 基于强化学习的策略学习,优化CAV速度;4) 引入控制屏障函数(CBFs)进行安全约束,防止碰撞和闯红灯。
关键创新:论文的关键创新在于将控制屏障函数(CBFs)与强化学习相结合,为基于强化学习的GLOSA系统提供了显式的安全保证。传统强化学习方法难以保证训练过程中的安全性,而CBFs能够提供实时的安全约束,确保车辆在任何时候都满足安全条件。
关键设计:论文中,状态空间可能包括车辆的位置、速度、与前车的距离、信号灯状态等;动作空间可能包括车辆的加速度或速度变化量;奖励函数的设计需要平衡能源消耗、通行时间和安全性。控制屏障函数的设计需要根据车辆动力学模型和安全距离进行推导,确保车辆满足车辆跟随安全和红灯安全约束。
🖼️ 关键图片
📊 实验亮点
仿真结果表明,该方法在驾驶安全和车队能源消耗方面优于现有方法。具体而言,与传统GLOSA方法相比,该方法能够显著降低车队的能源消耗,同时保证车辆的安全行驶,避免碰撞和闯红灯等危险行为。具体的性能提升数据(例如,能源消耗降低百分比、碰撞次数减少量等)需要在论文中查找。
🎯 应用场景
该研究成果可应用于智能交通系统、自动驾驶车队管理、城市交通规划等领域。通过优化车队行驶策略,降低城市交通的能源消耗和排放,提高交通效率,并提升道路安全性。未来可进一步扩展到更复杂的交通场景,例如多交叉口协同控制、考虑行人和其他交通参与者的场景等。
📄 摘要(原文)
With recent advancements in Connected Autonomous Vehicles (CAVs), Green Light Optimal Speed Advisory (GLOSA) emerges as a promising eco-driving strategy to reduce the number of stops and idle time at intersections, thereby reducing energy consumption and emissions. Existing studies typically improve energy and travel efficiency for individual CAVs without considering their impacts on the entire mixed-traffic platoon, leading to inefficient traffic flow. While Reinforcement Learning (RL) has the potential to achieve platoon-level control in a mixed-traffic environment, the training of RL is still challenged by (i) car-following safety, i.e., CAVs should not collide with their immediate preceding vehicles, and (ii) red-light safety, i.e., CAVs should not run red lights. To address these challenges, this paper develops a platoon-centric, safe RL-based GLOSA system that uses a multi-agent controller to optimize CAV speed while achieving a balance between energy consumption and travel efficiency. We further incorporate Control Barrier Functions (CBFs) into the RL-based policy to provide explicit safety guarantees in terms of car-following safety and red-light safety. Our simulation results illustrate that our proposed method outperforms state-of-the-art methods in terms of driving safety and platoon energy consumption.