Real-World Deployment and Assessment of a Multi-Agent Reinforcement Learning-Based Variable Speed Limit Control System

作者: Yuhang Zhang, Zhiyao Zhang, Junyi Ji, Marcos Quiñones-Grueiro, William Barbour, Derek Gloudemans, Gergely Zachár, Clay Weston, Gautam Biswas, Daniel B. Work

分类: eess.SY

发布日期: 2025-03-02

🔗 代码/项目: GITHUB

💡 一句话要点

首次在真实道路部署基于多智能体强化学习的可变限速控制系统

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 多智能体强化学习 可变限速控制 交通控制 智能交通系统 实地部署

📋 核心要点

现有可变限速控制系统在应对复杂交通状况时存在局限性，难以实现全局优化和快速响应。
采用多智能体强化学习，将每个可变限速控制器视为智能体，通过协同学习优化整体交通流。
实地部署结果表明，该系统能显著提高预警准确率，降低拥堵响应延迟，并减少事故发生率。

📝 摘要（中文）

本文介绍了首个基于多智能体强化学习（MARL）的可变限速（VSL）控制系统在田纳西州纳什维尔附近I-24州际公路上的实地部署。我们设计并演示了一个完整的流程，从在交通模拟器中训练MARL智能体到在I-24州际公路一段17英里的路段上进行实地部署，该路段包含67个VSL控制器。该系统于2024年3月8日启动，在六个月的运行中，对2800万次行程做出了约3500万次决策。我们应用了无效动作屏蔽机制和若干安全保护措施，以确保满足现实世界的约束。基于MARL的实现方案运行时间占比高达98%，其余时间由安全保护措施覆盖MARL的决策。我们将基于MARL的算法与先前部署在I-24上的非RL VSL基准算法进行了性能评估。结果表明，基于MARL的VSL控制系统取得了更优越的性能。正确警告驾驶员前方交通减速的准确率提高了14%，对非周期性拥堵的响应延迟减少了75%。初步数据显示，VSL控制系统已将事故率降低了26%，二次事故率降低了50%。我们将部署的基于MARL的VSL算法开源在https://github.com/Lab-Work/marl-vsl-controller。

🔬 方法详解

问题定义：论文旨在解决现有可变限速控制系统在应对复杂、动态的交通状况时存在的局限性。传统方法通常基于规则或简单的控制策略，难以实现全局交通流的优化，并且对突发拥堵事件的响应速度较慢。这些问题可能导致交通效率低下，增加事故风险。

核心思路：论文的核心思路是将可变限速控制问题建模为一个多智能体强化学习（MARL）问题。每个可变限速控制器被视为一个独立的智能体，通过与环境和其他智能体交互，学习最优的限速策略。这种分布式控制方式能够更好地适应交通流的动态变化，实现全局交通效率的提升。

技术框架：该系统的整体框架包括以下几个主要模块：1) 交通模拟器：用于训练MARL智能体，模拟真实的交通环境。2) MARL智能体：负责根据当前交通状况，决策最优的限速值。3) 无效动作屏蔽机制：用于防止智能体采取不安全的动作，例如突然大幅度调整限速。4) 安全保护措施：在MARL智能体决策不合理时，进行人工干预，确保系统的安全性。5) 实地部署系统：将训练好的MARL智能体部署到真实的道路环境中，进行实时控制。

关键创新：该论文最重要的技术创新点在于将多智能体强化学习应用于真实道路环境中的可变限速控制。与传统的基于规则或简单控制策略的方法相比，MARL能够更好地适应交通流的动态变化，实现全局交通效率的优化。此外，论文还提出了无效动作屏蔽机制和安全保护措施，确保了系统在真实环境中的安全性和可靠性。

关键设计：论文中没有详细说明具体的参数设置、损失函数和网络结构等技术细节。但是，可以推断，智能体的奖励函数可能与交通流量、平均速度、拥堵程度等指标相关。此外，为了保证系统的安全性，可能需要对智能体的动作空间进行约束，并设置相应的安全阈值。

🖼️ 关键图片

📊 实验亮点

该研究在田纳西州I-24州际公路进行了为期六个月的实地部署，结果表明，基于MARL的VSL控制系统在预警准确率方面提高了14%，对非周期性拥堵的响应延迟减少了75%。更重要的是，初步数据显示，事故率降低了26%，二次事故率降低了50%。

🎯 应用场景

该研究成果可广泛应用于城市交通管理、高速公路控制等领域，通过优化限速策略，提高道路通行效率，减少交通拥堵和事故发生率。未来，该技术可与车路协同系统、自动驾驶技术相结合，实现更智能化的交通控制。

📄 摘要（原文）

This article presents the first field deployment of a multi-agent reinforcement learning (MARL) based variable speed limit (VSL) control system on Interstate 24 (I-24) near Nashville, Tennessee. We design and demonstrate a full pipeline from training MARL agents in a traffic simulator to a field deployment on a 17-mile segment of I-24 encompassing 67 VSL controllers. The system was launched on March 8th, 2024, and has made approximately 35 million decisions on 28 million trips in six months of operation. We apply an invalid action masking mechanism and several safety guards to ensure real-world constraints. The MARL-based implementation operates up to 98% of the time, with the safety guards overriding the MARL decisions for the remaining time. We evaluate the performance of the MARL-based algorithm in comparison to a previously deployed non-RL VSL benchmark algorithm on I-24. Results show that the MARL-based VSL control system achieves a superior performance. The accuracy of correctly warning drivers about slowing traffic ahead is improved by 14% and the response delay to non-recurrent congestion is reduced by 75%. The preliminary data shows that the VSL control system has reduced the crash rate by 26% and the secondary crash rate by 50%. We open-sourced the deployed MARL-based VSL algorithm at https://github.com/Lab-Work/marl-vsl-controller.

Real-World Deployment and Assessment of a Multi-Agent Reinforcement Learning-Based Variable Speed Limit Control System

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理