Enforcing Cooperative Safety for Reinforcement Learning-based Mixed-Autonomy Platoon Control

作者: Jingyuan Zhou, Longhao Yan, Jinhao Liang, Kaidi Yang

分类: eess.SY

发布日期: 2024-11-15

💡 一句话要点

提出基于安全约束MARL的混合自动驾驶车队协同控制方法，提升系统安全性。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 多智能体强化学习 混合自动驾驶车队 协同控制 控制障碍函数 安全性约束

📋 核心要点

现有MARL方法依赖奖励函数惩罚安全违规，缺乏理论安全保证，且未能充分探索多CAV协同以提升整体安全性。
提出一种安全MARL框架，利用协同控制障碍函数（CBF）实现CAV协同安全，并通过可微分QP层将安全约束集成到MARL中。
通过仿真验证，该方法能够在最小化控制性能影响的同时，有效提升混合自动驾驶车队的系统级安全性。

📝 摘要（中文）

本文提出了一种用于混合自动驾驶车队（包含联网自动驾驶车辆CAV和人类驾驶车辆HDV）的安全多智能体强化学习（MARL）框架。该框架旨在解决现有MARL方法在安全性保障、多CAV协同安全以及对人类驾驶车辆行为未知性处理方面的不足。具体而言，该框架通过设计协同控制障碍函数（CBF）来表征协同安全性，使CAV能够协同提高整个车队的安全性。同时，通过可微分二次规划（QP）层将基于CBF的安全约束集成到MARL中，为基于MARL的控制器提供安全保证。此外，还引入了一个保角预测模块，使每个CAV能够对周围车辆的未知行为进行不确定性量化估计。仿真结果表明，该控制策略能够有效提升混合自动驾驶车队的系统级安全性，且对控制性能的影响最小。

🔬 方法详解

问题定义：现有基于MARL的混合自动驾驶车队控制方法主要存在三个痛点：一是缺乏理论上的安全保证，因为强化学习本质上是一个黑盒过程；二是较少关注多CAV之间的协同，以进一步提升系统级的安全性；三是通常假设人类驾驶车辆（HDV）和CAV的行为是完全已知且理性的，这在实际场景中是不成立的。因此，需要解决如何在不完全了解其他车辆行为的情况下，保证混合车队的安全性和协同性问题。

核心思路：本文的核心思路是通过引入控制障碍函数（CBF）来显式地约束MARL控制器的输出，从而保证安全性。同时，通过设计协同CBF，鼓励CAV之间进行协同，以提升整个车队的安全性。此外，使用保角预测来估计周围车辆的未知行为，并量化其不确定性，从而使控制器能够更加鲁棒地应对不确定性。

技术框架：该框架主要包含三个模块：1) 基于MARL的控制器，负责生成车辆的控制指令；2) 基于协同CBF的安全约束模块，该模块利用可微分二次规划（QP）层将安全约束集成到MARL中，对控制指令进行修正，以保证安全性；3) 保角预测模块，用于估计周围车辆的未知行为，并量化其不确定性。整体流程是：首先，MARL控制器根据当前状态生成控制指令；然后，保角预测模块估计周围车辆的行为；接着，基于协同CBF的安全约束模块利用QP层对控制指令进行修正，以满足安全约束；最后，将修正后的控制指令发送给车辆执行。

关键创新：该论文的关键创新在于：1) 提出了协同控制障碍函数（CBF），用于表征多CAV之间的协同安全性，并提升整个车队的安全性；2) 将基于CBF的安全约束通过可微分二次规划（QP）层集成到MARL中，从而为MARL控制器提供了安全保证；3) 引入了保角预测模块，用于估计周围车辆的未知行为，并量化其不确定性。与现有方法相比，该方法不仅考虑了单个车辆的安全性，还考虑了多CAV之间的协同安全性，并且能够处理车辆行为的不确定性。

关键设计：协同CBF的设计需要考虑多个CAV之间的相对位置和速度，以及与HDV之间的安全距离。QP层的目标函数是最小化控制指令的修正量，约束条件是满足协同CBF所定义的安全约束。保角预测模块使用历史数据来训练预测模型，并利用保角预测方法来量化预测结果的不确定性。具体的参数设置和网络结构在论文中未详细说明，属于未知信息。

🖼️ 关键图片

📊 实验亮点

仿真结果表明，所提出的控制策略能够在有效提升系统级安全性的同时，对控制性能的影响最小。具体的性能数据、对比基线和提升幅度在摘要中未给出，属于未知信息。但强调了CAV合作能够提升安全性，且对控制性能影响小。

🎯 应用场景

该研究成果可应用于智能交通系统、自动驾驶车队管理、以及高级驾驶辅助系统（ADAS）等领域。通过提升混合交通流中自动驾驶车辆的安全性与协同性，有望提高道路通行效率，降低交通事故发生率，并为未来的智能交通发展奠定基础。

📄 摘要（原文）

It is recognized that the control of mixed-autonomy platoons comprising connected and automated vehicles (CAVs) and human-driven vehicles (HDVs) can enhance traffic flow. Among existing methods, Multi-Agent Reinforcement Learning (MARL) appears to be a promising control strategy because it can manage complex scenarios in real time. However, current research on MARL-based mixed-autonomy platoon control suffers from several limitations. First, existing MARL approaches address safety by penalizing safety violations in the reward function, thus lacking theoretical safety guarantees due to the black-box nature of RL. Second, few studies have explored the cooperative safety of multi-CAV platoons, where CAVs can be coordinated to further enhance the system-level safety involving the safety of both CAVs and HDVs. Third, existing work tends to make an unrealistic assumption that the behavior of HDVs and CAVs is publicly known and rationale. To bridge the research gaps, we propose a safe MARL framework for mixed-autonomy platoons. Specifically, this framework (i) characterizes cooperative safety by designing a cooperative Control Barrier Function (CBF), enabling CAVs to collaboratively improve the safety of the entire platoon, (ii) provides a safety guarantee to the MARL-based controller by integrating the CBF-based safety constraints into MARL through a differentiable quadratic programming (QP) layer, and (iii) incorporates a conformal prediction module that enables each CAV to estimate the unknown behaviors of the surrounding vehicles with uncertainty qualification. Simulation results show that our proposed control strategy can effectively enhance the system-level safety through CAV cooperation of a mixed-autonomy platoon with a minimal impact on control performance.

Enforcing Cooperative Safety for Reinforcement Learning-based Mixed-Autonomy Platoon Control

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理