ReasonLight: A Multimodal Foundation Model-Enhanced Reinforcement Learning Framework for Zero-Shot Traffic Signal Control

📄 arXiv: 2605.29425v1 📥 PDF

作者: Aoyu Pang, Maonan Wang, Yuejiao Xie, Chung Shue Chen, Zhiwei Yang, Man-On Pun

分类: cs.AI

发布日期: 2026-05-28


💡 一句话要点

ReasonLight:基于多模态大模型的零样本交通信号控制强化学习框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 交通信号控制 强化学习 多模态融合 零样本学习 计算机视觉

📋 核心要点

  1. 现有交通信号控制强化学习方法难以应对训练数据中未出现的开放世界事件,泛化能力受限。
  2. ReasonLight框架融合结构化交通数据、多视角视觉信息和预训练RL策略,实现语义引导的动作优化。
  3. 实验表明,ReasonLight在紧急车辆优先和临时交通管制等场景下,无需重新训练即可显著提升性能。

📝 摘要(中文)

强化学习(RL)在交通信号控制(TSC)中展现了潜力。然而,它对预定义状态的依赖限制了其对训练数据中不存在的可观察到的开放世界事件的响应。支持物联网的交叉路口提供来自路边传感器和摄像头的异构观测,从而创造了提高RL对此类事件适应性的机会。为此,我们提出了ReasonLight,一个用于零样本TSC的多模态基础模型增强的RL框架。ReasonLight集成了三种信息来源:结构化交通测量、多视角摄像头观测以及来自预训练RL控制器的候选相位决策。给定一个RL提出的相位,ReasonLight从多视角图像中提取视觉语义,并将它们与紧凑的传感器导出的场景描述对齐。这种对齐使得语义引导的细化模块能够根据交通规则和事件语义来保持或调整所提出的动作。为了确保运行可靠性,细化的动作受到可用相位集合的约束。任何无效的决策都会被拒绝,系统会回退到原始的RL动作。我们在RL训练期间未见过的两种类型的罕见事件上评估ReasonLight:紧急车辆优先和临时交通管制。实验结果表明,ReasonLight实现了零样本自适应,无需重新训练。与仅使用RL骨干网络相比,它将紧急车辆等待时间减少了高达88.7%,同时保持了相当的常规交通性能。

🔬 方法详解

问题定义:现有基于强化学习的交通信号控制方法依赖于预定义的交通状态,难以泛化到训练数据中未出现的罕见事件,例如紧急车辆优先通行或临时交通管制。这些事件通常伴随着视觉信息,例如摄像头捕捉到的特殊车辆或交通标志,而传统方法无法有效利用这些信息。

核心思路:ReasonLight的核心思路是利用多模态大模型理解交通场景中的视觉语义,并将其与结构化的交通数据融合,从而指导强化学习控制器的动作选择。通过这种方式,ReasonLight能够根据实际交通情况动态调整信号灯配时,即使在未知的事件发生时也能做出合理的决策。

技术框架:ReasonLight框架包含三个主要模块:1) 多模态信息提取模块,从传感器数据和多视角摄像头图像中提取交通状态和视觉语义信息;2) 语义对齐模块,将视觉语义信息与结构化的交通状态描述对齐,形成统一的场景表示;3) 语义引导的动作细化模块,根据对齐后的场景表示,对预训练RL控制器提出的动作进行调整,以满足交通规则和事件语义。如果细化后的动作无效,则回退到原始RL动作。

关键创新:ReasonLight的关键创新在于将多模态大模型引入交通信号控制领域,并设计了一种语义引导的动作细化机制。与传统的强化学习方法相比,ReasonLight能够利用视觉信息理解交通场景,从而实现零样本的泛化能力。此外,ReasonLight通过约束动作空间,保证了控制策略的安全性。

关键设计:ReasonLight使用预训练的强化学习控制器作为基础策略,并利用视觉Transformer提取多视角图像的视觉特征。语义对齐模块使用注意力机制将视觉特征与传感器数据融合。动作细化模块使用一个小型神经网络,根据融合后的特征调整RL控制器的动作。为了保证动作的有效性,细化后的动作必须属于预定义的相位集合。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ReasonLight在紧急车辆优先和临时交通管制两种未见事件上进行了评估。实验结果表明,与仅使用RL骨干网络相比,ReasonLight能够将紧急车辆的平均等待时间减少高达88.7%,同时保持了常规交通流量的性能。这表明ReasonLight具有良好的零样本泛化能力和实际应用潜力。

🎯 应用场景

ReasonLight可应用于智能交通管理系统,提升交通信号控制的智能化水平。尤其在应对突发事件、保障特殊车辆优先通行、优化交通流量等方面具有重要价值。该研究为未来城市交通管理系统的发展提供了新的思路,有助于构建更安全、高效、绿色的交通环境。

📄 摘要(原文)

Reinforcement learning (RL) has shown promise in traffic signal control (TSC). However, its reliance on predefined states limits responsiveness to observable open-world events that are absent from training data. IoT-enabled intersections provide heterogeneous observations from roadside sensors and cameras, creating opportunities to improve RL adaptability to such events. To this end, we propose ReasonLight, a multimodal foundation model-enhanced RL framework for zero-shot TSC. ReasonLight integrates three sources of information: structured traffic measurements, multi-view camera observations, and candidate phase decisions from a pre-trained RL controller. Given an RL-proposed phase, ReasonLight extracts visual semantics from multi-view images and aligns them with compact sensor-derived scene descriptions. This alignment enables a semantic-guided refinement module to either preserve or adjust the proposed action according to traffic rules and event semantics. To ensure operational reliability, refined actions are constrained by the set of available phases. Any invalid decision is rejected, and the system falls back to the original RL action. We evaluate ReasonLight on two types of rare events not seen during RL training: emergency vehicle priority and temporary traffic regulation. Experimental results show that ReasonLight achieves zero-shot adaptation without retraining. It reduces emergency vehicle waiting time by up to 88.7% compared with the RL-only backbone while preserving comparable routine traffic performance.