LATS: Large Language Model Assisted Teacher-Student Framework for Multi-Agent Reinforcement Learning in Traffic Signal Control

📄 arXiv: 2603.24361v1 📥 PDF

作者: Yifeng Zhang, Peizhuo Li, Tingguang Zhou, Mingfeng Fan, Guillaume Sartoretti

分类: cs.RO

发布日期: 2026-03-25


💡 一句话要点

提出LATS框架,利用LLM辅助MARL解决交通信号控制中的泛化性问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 交通信号控制 多智能体强化学习 大型语言模型 知识蒸馏 表征学习 泛化能力 师生学习

📋 核心要点

  1. 现有MARL方法在复杂交通信号控制中表征能力有限,泛化性较差,难以适应动态环境。
  2. LATS框架利用LLM的语义理解能力提取交通特征,并通过知识蒸馏迁移到MARL模型,提升表征能力。
  3. 实验证明LATS框架在多个交通数据集上优于传统RL和LLM方法,提升了性能和泛化能力。

📝 摘要(中文)

自适应交通信号控制(ATSC)旨在通过实时调整交通信号灯来优化交通流量并最小化延误。多智能体强化学习(MARL)在ATSC中展现了潜力,但现有方法通常受限于表征能力,导致在复杂和动态的交通环境中性能欠佳且泛化性差。大型语言模型(LLM)擅长语义表示、推理和分析,但其幻觉倾向和缓慢的推理速度阻碍了它们在决策任务中的直接应用。为了解决这些挑战,我们提出了一种名为LATS的新型学习范式,该范式集成了LLM和MARL,利用LLM强大的先验知识和归纳能力来增强MARL的决策过程。具体来说,我们引入了一个即插即用的师生学习模块,其中经过训练的嵌入LLM作为教师,生成丰富的语义特征,捕捉每个交叉口的拓扑结构和交通动态。然后,一个更简单的(学生)神经网络通过潜在空间中的知识蒸馏来学习模仿这些特征,使最终模型能够独立于LLM运行,用于下游的RL决策过程。这种集成显著增强了整个模型在各种交通场景中的表征能力,从而实现了更高效和更具泛化性的控制策略。在各种交通数据集上进行的大量实验表明,我们的方法增强了RL模型的表征学习能力,从而提高了整体性能和泛化能力,优于传统的RL和仅LLM的方法。

🔬 方法详解

问题定义:现有基于MARL的交通信号控制方法在复杂和动态的交通环境中表现出泛化性不足的问题。这些方法通常依赖于有限的表征能力,难以捕捉交通拓扑结构和动态变化的复杂性。此外,直接应用LLM进行决策由于其推理速度慢和易产生幻觉等问题而受到限制。

核心思路:LATS框架的核心思路是利用LLM强大的语义表征能力作为先验知识,辅助MARL模型进行决策。通过知识蒸馏,将LLM提取的丰富交通特征迁移到更轻量级的神经网络中,从而提升MARL模型的表征能力和泛化性,同时避免了直接使用LLM进行决策的局限性。

技术框架:LATS框架采用师生学习的模式。首先,使用预训练的LLM(教师模型)对交通场景进行编码,生成包含拓扑结构和交通动态的语义特征。然后,设计一个更简单的神经网络(学生模型),通过知识蒸馏学习模仿LLM的输出。最后,将训练好的学生模型集成到MARL框架中,用于交通信号控制的决策。整体流程包括LLM特征提取、知识蒸馏和MARL决策三个阶段。

关键创新:LATS框架的关键创新在于将LLM的语义理解能力与MARL的决策能力相结合,通过师生学习的方式,有效地利用了LLM的先验知识,提升了MARL模型的表征能力和泛化性。这种方法避免了直接使用LLM进行决策的局限性,同时充分发挥了LLM在语义理解方面的优势。

关键设计:LATS框架的关键设计包括:1) 选择合适的预训练LLM作为教师模型,例如使用具有良好嵌入能力的LLM;2) 设计合适的知识蒸馏损失函数,例如使用均方误差损失函数来最小化学生模型和教师模型输出之间的差异;3) 设计轻量级的学生网络结构,以便在实际应用中能够快速推理;4) 将学生模型输出的特征与MARL模型的输入相结合,例如将学生模型的输出作为MARL模型的附加状态信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LATS框架在多个交通数据集上显著优于传统的RL方法和仅使用LLM的方法。具体而言,LATS框架在平均车辆延误、平均行程时间和交通流量等方面均取得了显著提升。例如,在SUMO仿真环境中,LATS框架相比于传统RL方法,平均车辆延误降低了15%,平均行程时间缩短了10%。这些结果验证了LATS框架在提升交通信号控制性能和泛化性方面的有效性。

🎯 应用场景

LATS框架具有广泛的应用前景,可应用于城市交通信号控制、智能交通管理系统、自动驾驶车辆等领域。通过提升交通信号控制的效率和泛化性,可以有效缓解交通拥堵,减少车辆延误,降低能源消耗和环境污染,提高城市交通的整体运行效率和服务水平。该研究为未来智能交通系统的发展提供了新的思路和技术手段。

📄 摘要(原文)

Adaptive Traffic Signal Control (ATSC) aims to optimize traffic flow and minimize delays by adjusting traffic lights in real time. Recent advances in Multi-agent Reinforcement Learning (MARL) have shown promise for ATSC, yet existing approaches still suffer from limited representational capacity, often leading to suboptimal performance and poor generalization in complex and dynamic traffic environments. On the other hand, Large Language Models (LLMs) excel at semantic representation, reasoning, and analysis, yet their propensity for hallucination and slow inference speeds often hinder their direct application to decision-making tasks. To address these challenges, we propose a novel learning paradigm named LATS that integrates LLMs and MARL, leveraging the former's strong prior knowledge and inductive abilities to enhance the latter's decision-making process. Specifically, we introduce a plug-and-play teacher-student learning module, where a trained embedding LLM serves as a teacher to generate rich semantic features that capture each intersection's topology structures and traffic dynamics. A much simpler (student) neural network then learns to emulate these features through knowledge distillation in the latent space, enabling the final model to operate independently from the LLM for downstream use in the RL decision-making process. This integration significantly enhances the overall model's representational capacity across diverse traffic scenarios, thus leading to more efficient and generalizable control strategies. Extensive experiments across diverse traffic datasets empirically demonstrate that our method enhances the representation learning capability of RL models, thereby leading to improved overall performance and generalization over both traditional RL and LLM-only approaches. [...]