Multi-Agent Reinforcement Learning-based Cooperative Autonomous Driving in Smart Intersections
作者: Taoyuan Yu, Kui Wang, Zongdian Li, Tao Yu, Kei Sakaguchi
分类: cs.RO, cs.MA, eess.SY
发布日期: 2025-05-07
备注: 7 pages
💡 一句话要点
提出基于多智能体强化学习的智能路口协同自动驾驶系统
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 多智能体强化学习 协同自动驾驶 智能路口 车路协同 保守Q学习
📋 核心要点
- 无信号交叉口存在复杂的交通流,对安全和效率构成重大挑战,现有方法难以有效协调。
- 提出一种基于路侧单元(RSU)的协同驾驶系统,利用全局感知和多智能体强化学习进行决策。
- 实验表明,该系统在复杂交叉口场景中协调多个自动驾驶车辆时,显著降低了故障率,并具有良好的鲁棒性和泛化能力。
📝 摘要(中文)
本文提出了一种以路侧单元(RSU)为中心的协同驾驶系统,该系统利用全局感知和车路协同(V2I)通信来解决无信号交叉口带来的安全和效率挑战。系统的核心是基于RSU的决策模块,该模块采用两阶段混合强化学习(RL)框架。首先,使用保守Q学习(CQL)结合行为克隆(BC)在收集的数据集上离线预训练策略。然后,在仿真中使用多智能体近端策略优化(MAPPO)对这些策略进行微调,并结合自注意力机制以有效解决智能体间的依赖关系。RSU基于训练好的模型进行实时推理,通过V2I通信实现车辆控制。在CARLA环境中的大量实验表明,该系统非常有效,在协调三个联网自动驾驶车辆(CAV)通过复杂的交叉路口场景时,故障率低于0.03%,明显优于传统的Autoware控制方法,并且在不同数量的受控智能体中表现出强大的鲁棒性,并在其他地图上显示出良好的泛化能力。
🔬 方法详解
问题定义:论文旨在解决无信号交叉口中,由于交通流复杂导致的安全和效率问题。现有方法,如传统的Autoware控制方法,在处理多车辆协同和复杂场景时表现不佳,容易发生碰撞或效率低下。痛点在于缺乏有效的车辆间协调机制和对环境变化的适应能力。
核心思路:论文的核心思路是利用路侧单元(RSU)作为中心决策者,通过V2I通信获取全局感知信息,并采用多智能体强化学习(MARL)来学习车辆间的协同策略。通过离线预训练和在线微调,使智能体能够适应不同的交通场景和车辆数量,从而提高交叉口的通行效率和安全性。
技术框架:该系统包含以下主要模块:1) 数据收集模块:收集车辆和环境数据,用于离线策略预训练。2) 离线预训练模块:使用保守Q学习(CQL)结合行为克隆(BC)在收集的数据集上预训练策略。3) 在线微调模块:使用多智能体近端策略优化(MAPPO)对预训练策略进行微调,并结合自注意力机制以有效解决智能体间的依赖关系。4) RSU决策模块:基于训练好的模型进行实时推理,通过V2I通信向车辆发送控制指令。5) 车辆控制模块:接收RSU的指令,执行车辆的加速、减速和转向等动作。
关键创新:该论文的关键创新在于:1) 提出了一种RSU中心的多智能体协同驾驶框架,能够有效利用全局感知信息。2) 采用两阶段混合强化学习方法,结合CQL+BC进行离线预训练,MAPPO进行在线微调,提高了训练效率和策略的鲁棒性。3) 引入自注意力机制,有效解决了智能体间的依赖关系,提高了协同驾驶的性能。
关键设计:在离线预训练阶段,CQL用于约束Q函数的估计,防止过估计,提高策略的安全性。行为克隆用于加速策略的学习过程。在线微调阶段,MAPPO使用近端策略优化算法,保证策略更新的稳定性。自注意力机制用于学习智能体间的依赖关系,其权重由神经网络学习得到。具体参数设置未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该系统在协调三个联网自动驾驶车辆通过复杂交叉路口场景时,故障率低于0.03%,显著优于传统的Autoware控制方法。此外,该系统在不同数量的受控智能体中表现出强大的鲁棒性,并在其他地图上显示出良好的泛化能力。这些结果验证了该系统在实际应用中的可行性和优越性。
🎯 应用场景
该研究成果可应用于智能交通系统、自动驾驶车辆测试平台和城市交通管理等领域。通过在实际道路部署RSU,可以实现更安全、高效的交叉口通行,减少交通事故和交通拥堵,提升城市交通的整体运行效率。未来,该技术还可以扩展到更复杂的交通场景,如高速公路匝道和城市道路网络。
📄 摘要(原文)
Unsignalized intersections pose significant safety and efficiency challenges due to complex traffic flows. This paper proposes a novel roadside unit (RSU)-centric cooperative driving system leveraging global perception and vehicle-to-infrastructure (V2I) communication. The core of the system is an RSU-based decision-making module using a two-stage hybrid reinforcement learning (RL) framework. At first, policies are pre-trained offline using conservative Q-learning (CQL) combined with behavior cloning (BC) on collected dataset. Subsequently, these policies are fine-tuned in the simulation using multi-agent proximal policy optimization (MAPPO), aligned with a self-attention mechanism to effectively solve inter-agent dependencies. RSUs perform real-time inference based on the trained models to realize vehicle control via V2I communications. Extensive experiments in CARLA environment demonstrate high effectiveness of the proposed system, by: \textit{(i)} achieving failure rates below 0.03\% in coordinating three connected and autonomous vehicles (CAVs) through complex intersection scenarios, significantly outperforming the traditional Autoware control method, and \textit{(ii)} exhibiting strong robustness across varying numbers of controlled agents and shows promising generalization capabilities on other maps.