CROSS: A Mixture-of-Experts Reinforcement Learning Framework for Generalizable Large-Scale Traffic Signal Control

📄 arXiv: 2603.24930v1 📥 PDF

作者: Xibei Chen, Yifeng Zhang, Yuxiang Xiao, Mingfeng Fan, Maonan Wang, Guillaume Sartoretti

分类: cs.RO

发布日期: 2026-03-26


💡 一句话要点

提出基于混合专家强化学习的CROSS框架,解决大规模交通信号控制的泛化性问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 交通信号控制 强化学习 混合专家模型 对比学习 交通模式识别

📋 核心要点

  1. 现有基于强化学习的交通信号控制方法,由于表示能力有限,难以捕捉复杂交通动态和泛化到新环境。
  2. CROSS框架通过预测对比聚类模块识别交通模式,并利用场景自适应混合专家模块实现策略的专业化和灵活性。
  3. 实验结果表明,CROSS在合成和真实交通数据集上均优于现有方法,提升了交通信号控制的性能和泛化能力。

📝 摘要(中文)

本文提出了一种名为CROSS的混合专家(MoE)分散式强化学习框架,用于实现可泛化的大规模交通信号控制。针对现有基于强化学习的方法难以捕捉多样交通动态和泛化到未见环境的问题,CROSS框架首先引入了一个预测对比聚类(PCC)模块,该模块预测短期状态转换以识别潜在的交通模式,并通过聚类和对比学习来增强模式级别的表示。此外,设计了一个场景自适应的MoE模块,用多个专家来增强共享策略,从而实现自适应专业化和更灵活的特定场景策略。在SUMO模拟器上,使用合成和真实世界的交通数据集进行了大量实验。结果表明,与最先进的基线方法相比,CROSS通过改进对多样交通场景的表示,实现了卓越的性能和泛化能力。

🔬 方法详解

问题定义:现有基于强化学习的交通信号控制方法通常采用单一共享策略,难以有效处理大规模交通网络中多样化的交通模式和动态变化。这些方法在面对不同拓扑结构和复杂交通需求时,泛化能力不足,导致性能下降。因此,如何提高交通信号控制策略的泛化性,使其能够适应各种交通场景,是一个亟待解决的问题。

核心思路:CROSS框架的核心思路是利用混合专家(MoE)模型,将一个共享策略与多个专家策略相结合,从而实现对不同交通场景的自适应专业化。通过预测对比聚类(PCC)模块,识别潜在的交通模式,并利用这些模式来指导专家策略的选择。这种方法能够有效地捕捉交通动态,并根据不同的交通场景选择合适的策略,从而提高泛化能力。

技术框架:CROSS框架主要包含两个核心模块:预测对比聚类(PCC)模块和场景自适应混合专家(MoE)模块。PCC模块首先预测短期的状态转移,然后对预测结果进行聚类,从而识别出不同的交通模式。MoE模块则包含一个共享策略和多个专家策略,通过一个门控网络(Gating Network)来选择合适的专家策略。整体流程是:首先,PCC模块提取交通模式的表示;然后,MoE模块根据交通模式选择合适的专家策略,并输出控制动作;最后,环境反馈奖励信号,用于更新PCC模块和MoE模块的参数。

关键创新:CROSS框架的关键创新在于将预测对比聚类与混合专家模型相结合,用于解决交通信号控制的泛化性问题。PCC模块能够有效地识别交通模式,并将其用于指导专家策略的选择。MoE模块则能够实现对不同交通场景的自适应专业化,从而提高策略的泛化能力。与现有方法相比,CROSS框架能够更好地捕捉交通动态,并根据不同的交通场景选择合适的策略。

关键设计:PCC模块的关键设计包括:使用Transformer网络进行状态转移预测,采用对比学习损失函数来增强模式表示,以及使用K-means算法进行聚类。MoE模块的关键设计包括:使用门控网络来选择专家策略,采用Softmax函数来计算专家策略的权重,以及使用强化学习算法(如DQN或PPO)来训练专家策略和门控网络。具体的参数设置包括:Transformer网络的层数、隐藏单元数,对比学习的温度参数,K-means算法的聚类数量等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CROSS框架在合成和真实世界的交通数据集上均优于现有基线方法。例如,在真实数据集上,CROSS框架的平均车辆延误时间比表现最佳的基线方法减少了约10%-15%。此外,CROSS框架在面对未见过的交通场景时,仍能保持较好的性能,展现出良好的泛化能力。

🎯 应用场景

该研究成果可应用于智能交通系统,提升城市交通效率,缓解交通拥堵,减少环境污染。通过自适应调整交通信号灯配时,优化车辆通行,降低出行时间,提高道路利用率。未来可进一步扩展到自动驾驶、车路协同等领域,构建更智能、高效的交通网络。

📄 摘要(原文)

Recent advances in robotics, automation, and artificial intelligence have enabled urban traffic systems to operate with increasing autonomy towards future smart cities, powered in part by the development of adaptive traffic signal control (ATSC), which dynamically optimizes signal phases to mitigate congestion and optimize traffic. However, achieving effective and generalizable large-scale ATSC remains a significant challenge due to the diverse intersection topologies and highly dynamic, complex traffic demand patterns across the network. Existing RL-based methods typically use a single shared policy for all scenarios, whose limited representational capacity makes it difficult to capture diverse traffic dynamics and generalize to unseen environments. To address these challenges, we propose CROSS, a novel Mixture-of-Experts (MoE)-based decentralized RL framework for generalizable ATSC. We first introduce a Predictive Contrastive Clustering (PCC) module that forecasts short-term state transitions to identify latent traffic patterns, followed by clustering and contrastive learning to enhance pattern-level representation. We further design a Scenario-Adaptive MoE module that augments a shared policy with multiple experts, thus enabling adaptive specialization and more flexible scenario-specific strategies. We conduct extensive experiments in the SUMO simulator on both synthetic and real-world traffic datasets. Compared with state-of-the-art baselines, CROSS achieves superior performance and generalization through improved representation of diverse traffic scenarios.