Large-Scale Mixed-Traffic and Intersection Control using Multi-agent Reinforcement Learning

📄 arXiv: 2504.04691v2 📥 PDF

作者: Songyang Liu, Muyang Fan, Weizi Li, Jing Du, Shuai Li

分类: cs.LG, cs.MA

发布日期: 2025-04-07 (更新: 2025-07-26)

备注: Accepted to IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 2025


💡 一句话要点

提出基于多智能体强化学习的大规模混合交通路口控制方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion)

关键词: 多智能体强化学习 大规模交通控制 混合交通流 自动驾驶车辆 交通仿真

📋 核心要点

  1. 现有交通控制方法在大规模混合交通场景下表现不足,尤其是在自动驾驶车辆与传统车辆共存的情况下。
  2. 论文提出一种去中心化的多智能体强化学习方法,用于优化大规模混合交通网络中的交通控制策略。
  3. 实验结果表明,该方法在真实城市交通网络中显著降低了车辆等待时间并提高了交通吞吐量。

📝 摘要(中文)

交通拥堵是现代城市网络面临的重大挑战。自动驾驶技术为此提供了一种潜在的解决方案。在交通控制方法中,强化学习在各种场景下都表现出优于传统交通信号灯的性能。然而,先前的研究主要集中在小规模网络或孤立的路口,使得大规模混合交通控制在很大程度上未被探索。本研究首次尝试使用去中心化的多智能体强化学习进行大规模混合交通控制,其中一些路口由交通信号灯管理,另一些由自动驾驶车辆管理。在美国科罗拉多斯普林斯市的一个包含14个路口的真实网络上进行了评估,通过车辆在路口的平均等待时间和在一定时间内到达目的地的车辆数量(即吞吐量)来衡量交通效率。在80%的自动驾驶车辆渗透率下,该方法将等待时间从6.17秒减少到5.09秒,并将吞吐量从每500秒454辆增加到每500秒493辆,优于完全信号灯控制的基线。这些发现表明,集成基于强化学习的大规模交通控制可以提高整体效率,并可能为未来的城市规划策略提供信息。

🔬 方法详解

问题定义:论文旨在解决大规模混合交通网络中的交通拥堵问题,现有方法,如传统的交通信号灯控制,无法有效处理自动驾驶车辆与传统车辆混合的复杂交通流,导致效率低下和拥堵加剧。现有研究大多集中在小规模网络或孤立路口,缺乏对大规模混合交通控制的探索。

核心思路:论文的核心思路是利用去中心化的多智能体强化学习,将每个路口或自动驾驶车辆视为一个智能体,通过学习与其他智能体的交互,优化自身的控制策略,从而实现全局交通效率的提升。这种方法能够适应混合交通流的动态变化,并做出更智能的决策。

技术框架:整体框架包括以下几个主要模块:1) 交通仿真环境,用于模拟大规模混合交通网络;2) 多智能体强化学习算法,每个智能体根据局部观测信息学习控制策略;3) 奖励函数设计,用于引导智能体学习优化交通效率的行为;4) 去中心化执行机制,每个智能体独立执行学习到的策略。

关键创新:最重要的技术创新点在于将去中心化的多智能体强化学习应用于大规模混合交通控制。与传统的集中式控制方法相比,该方法具有更好的可扩展性和鲁棒性,能够适应复杂的交通环境。此外,该方法能够同时优化交通信号灯和自动驾驶车辆的控制策略,实现更全面的交通管理。

关键设计:论文中关键的设计包括:1) 使用平均车辆等待时间和吞吐量作为奖励函数,引导智能体学习优化交通效率;2) 采用Actor-Critic框架,Actor网络用于学习控制策略,Critic网络用于评估策略的价值;3) 设计了合适的网络结构,以适应大规模交通网络的复杂性;4) 探索了不同的智能体通信机制,以提高协作效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在科罗拉多斯普林斯市的真实交通网络上进行的实验表明,该方法在80%的自动驾驶车辆渗透率下,将车辆平均等待时间从6.17秒降低到5.09秒,提高了约17.5%;同时,将交通吞吐量从每500秒454辆增加到每500秒493辆,提高了约8.6%。这些结果显著优于完全信号灯控制的基线。

🎯 应用场景

该研究成果可应用于智能交通系统、城市交通规划和自动驾驶车辆控制等领域。通过优化交通控制策略,可以有效缓解城市交通拥堵,提高交通效率,减少能源消耗和环境污染,为未来的智慧城市建设提供技术支持。

📄 摘要(原文)

Traffic congestion remains a significant challenge in modern urban networks. Autonomous driving technologies have emerged as a potential solution. Among traffic control methods, reinforcement learning has shown superior performance over traffic signals in various scenarios. However, prior research has largely focused on small-scale networks or isolated intersections, leaving large-scale mixed traffic control largely unexplored. This study presents the first attempt to use decentralized multi-agent reinforcement learning for large-scale mixed traffic control in which some intersections are managed by traffic signals and others by robot vehicles. Evaluating a real-world network in Colorado Springs, CO, USA with 14 intersections, we measure traffic efficiency via average waiting time of vehicles at intersections and the number of vehicles reaching their destinations within a time window (i.e., throughput). At 80% RV penetration rate, our method reduces waiting time from 6.17s to 5.09s and increases throughput from 454 vehicles per 500 seconds to 493 vehicles per 500 seconds, outperforming the baseline of fully signalized intersections. These findings suggest that integrating reinforcement learning-based control large-scale traffic can improve overall efficiency and may inform future urban planning strategies.