Multi-Agent Reinforcement Learning-based Cooperative Autonomous Driving in Smart Intersections

作者: Taoyuan Yu, Kui Wang, Zongdian Li, Tao Yu, Kei Sakaguchi

分类: cs.RO, cs.MA, eess.SY

发布日期: 2025-05-07

备注: 7 pages

💡 一句话要点

提出基于多智能体强化学习的智能路口协同自动驾驶系统

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 多智能体强化学习 协同自动驾驶 智能路口 车路协同 保守Q学习

📋 核心要点

无信号交叉口存在复杂的交通流，对安全和效率构成重大挑战，现有方法难以有效协调。
提出一种基于路侧单元（RSU）的协同驾驶系统，利用全局感知和多智能体强化学习进行决策。
实验表明，该系统在复杂交叉口场景中协调多个自动驾驶车辆时，显著降低了故障率，并具有良好的鲁棒性和泛化能力。

📝 摘要（中文）

本文提出了一种以路侧单元（RSU）为中心的协同驾驶系统，该系统利用全局感知和车路协同（V2I）通信来解决无信号交叉口带来的安全和效率挑战。系统的核心是基于RSU的决策模块，该模块采用两阶段混合强化学习（RL）框架。首先，使用保守Q学习（CQL）结合行为克隆（BC）在收集的数据集上离线预训练策略。然后，在仿真中使用多智能体近端策略优化（MAPPO）对这些策略进行微调，并结合自注意力机制以有效解决智能体间的依赖关系。RSU基于训练好的模型进行实时推理，通过V2I通信实现车辆控制。在CARLA环境中的大量实验表明，该系统非常有效，在协调三个联网自动驾驶车辆（CAV）通过复杂的交叉路口场景时，故障率低于0.03％，明显优于传统的Autoware控制方法，并且在不同数量的受控智能体中表现出强大的鲁棒性，并在其他地图上显示出良好的泛化能力。

🔬 方法详解

问题定义：论文旨在解决无信号交叉口中，由于交通流复杂导致的安全和效率问题。现有方法，如传统的Autoware控制方法，在处理多车辆协同和复杂场景时表现不佳，容易发生碰撞或效率低下。痛点在于缺乏有效的车辆间协调机制和对环境变化的适应能力。

核心思路：论文的核心思路是利用路侧单元（RSU）作为中心决策者，通过V2I通信获取全局感知信息，并采用多智能体强化学习（MARL）来学习车辆间的协同策略。通过离线预训练和在线微调，使智能体能够适应不同的交通场景和车辆数量，从而提高交叉口的通行效率和安全性。

技术框架：该系统包含以下主要模块：1) 数据收集模块：收集车辆和环境数据，用于离线策略预训练。2) 离线预训练模块：使用保守Q学习（CQL）结合行为克隆（BC）在收集的数据集上预训练策略。3) 在线微调模块：使用多智能体近端策略优化（MAPPO）对预训练策略进行微调，并结合自注意力机制以有效解决智能体间的依赖关系。4) RSU决策模块：基于训练好的模型进行实时推理，通过V2I通信向车辆发送控制指令。5) 车辆控制模块：接收RSU的指令，执行车辆的加速、减速和转向等动作。

关键创新：该论文的关键创新在于：1) 提出了一种RSU中心的多智能体协同驾驶框架，能够有效利用全局感知信息。2) 采用两阶段混合强化学习方法，结合CQL+BC进行离线预训练，MAPPO进行在线微调，提高了训练效率和策略的鲁棒性。3) 引入自注意力机制，有效解决了智能体间的依赖关系，提高了协同驾驶的性能。

关键设计：在离线预训练阶段，CQL用于约束Q函数的估计，防止过估计，提高策略的安全性。行为克隆用于加速策略的学习过程。在线微调阶段，MAPPO使用近端策略优化算法，保证策略更新的稳定性。自注意力机制用于学习智能体间的依赖关系，其权重由神经网络学习得到。具体参数设置未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该系统在协调三个联网自动驾驶车辆通过复杂交叉路口场景时，故障率低于0.03％，显著优于传统的Autoware控制方法。此外，该系统在不同数量的受控智能体中表现出强大的鲁棒性，并在其他地图上显示出良好的泛化能力。这些结果验证了该系统在实际应用中的可行性和优越性。

🎯 应用场景

该研究成果可应用于智能交通系统、自动驾驶车辆测试平台和城市交通管理等领域。通过在实际道路部署RSU，可以实现更安全、高效的交叉口通行，减少交通事故和交通拥堵，提升城市交通的整体运行效率。未来，该技术还可以扩展到更复杂的交通场景，如高速公路匝道和城市道路网络。

📄 摘要（原文）

Unsignalized intersections pose significant safety and efficiency challenges due to complex traffic flows. This paper proposes a novel roadside unit (RSU)-centric cooperative driving system leveraging global perception and vehicle-to-infrastructure (V2I) communication. The core of the system is an RSU-based decision-making module using a two-stage hybrid reinforcement learning (RL) framework. At first, policies are pre-trained offline using conservative Q-learning (CQL) combined with behavior cloning (BC) on collected dataset. Subsequently, these policies are fine-tuned in the simulation using multi-agent proximal policy optimization (MAPPO), aligned with a self-attention mechanism to effectively solve inter-agent dependencies. RSUs perform real-time inference based on the trained models to realize vehicle control via V2I communications. Extensive experiments in CARLA environment demonstrate high effectiveness of the proposed system, by: \textit{(i)} achieving failure rates below 0.03\% in coordinating three connected and autonomous vehicles (CAVs) through complex intersection scenarios, significantly outperforming the traditional Autoware control method, and \textit{(ii)} exhibiting strong robustness across varying numbers of controlled agents and shows promising generalization capabilities on other maps.

Multi-Agent Reinforcement Learning-based Cooperative Autonomous Driving in Smart Intersections

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理