DGLight: DQN-Guided GRPO Fine-Tuning of Large Language Models for Traffic Signal Control
作者: Chenbo Yu
分类: cs.LG
发布日期: 2026-04-28
🔗 代码/项目: GITHUB
💡 一句话要点
提出DGLight以优化交通信号控制中的大语言模型
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 交通信号控制 强化学习 大语言模型 深度Q网络 群体相对策略优化 可解释性 城市交通管理
📋 核心要点
- 现有的交通信号控制方法往往依赖于简单的规则或基于奖励的强化学习,缺乏对复杂交通状态的深度理解和解释能力。
- DGLight通过训练一个深度Q网络评论员来估计交通感知的动作值,并结合群体相对策略优化(GRPO)来优化控制策略。
- 实验结果表明,DGLight在济南和杭州的TSC基准测试中表现优异,超越了其他基于LLM的控制器,并在未见过的数据集上也能保持良好性能。
📝 摘要(中文)
交通信号控制(TSC)在减少拥堵和维护城市流动性方面起着核心作用。本论文介绍了DGLight,这是一种基于评论员引导的强化学习框架,用于将预训练的大语言模型适应于TSC。DGLight首先训练一个基于CoLight的深度Q网络评论员,以从结构化交叉口状态中估计交通感知的动作值,然后使用冻结的评论员对候选语言模型动作进行评分,并通过群体相对策略优化(GRPO)优化策略。最终的控制器将交通状态映射到可解释的推理轨迹和信号决策,同时从密集的每状态监督中学习,而不是原始的累积环境奖励。在覆盖济南和杭州的TSC基准上的实验表明,DGLight在比较的基于LLM的控制器中表现最强,且与强大的RL基线保持竞争力,并且在未用于拟合评论员的城市数据集上表现良好。定性示例进一步表明,该模型生成的推理是可解释的,并与所选择的信号相位一致。
🔬 方法详解
问题定义:本论文旨在解决交通信号控制中现有方法对复杂交通状态理解不足的问题,传统方法往往依赖于简单规则或累积奖励,缺乏可解释性。
核心思路:DGLight的核心思路是通过训练一个深度Q网络评论员来评估交通状态下的动作值,并利用该评论员对候选动作进行评分,从而优化控制策略。这样的设计使得模型能够在复杂的交通环境中做出更合理的决策。
技术框架:DGLight的整体架构包括两个主要模块:首先是CoLight-based深度Q网络评论员,用于估计交通感知的动作值;其次是基于GRPO的策略优化模块,利用评论员的评分来优化控制策略。
关键创新:DGLight的关键创新在于将评论员引导的强化学习与大语言模型结合,形成了一种新的适应性控制框架。这种方法与传统的基于奖励的强化学习方法本质上不同,后者通常缺乏对状态的深度理解。
关键设计:在设计中,DGLight采用了冻结的评论员来评分候选动作,并通过密集的每状态监督进行学习,避免了依赖于稀疏的环境奖励。此外,GRPO的引入使得策略优化过程更加稳定和高效。
🖼️ 关键图片
📊 实验亮点
实验结果显示,DGLight在济南和杭州的TSC基准测试中表现最优,相较于其他基于LLM的控制器,提升幅度显著。同时,该方法在未见过的城市数据集上也展现出良好的迁移能力,进一步验证了其有效性和适用性。
🎯 应用场景
该研究的潜在应用领域包括智能交通系统、城市交通管理和自动驾驶等。通过优化交通信号控制,DGLight能够有效减少城市交通拥堵,提高交通流动性,进而提升城市居民的出行体验。未来,该方法有望推广至更广泛的交通管理场景,促进智能交通技术的发展。
📄 摘要(原文)
Traffic signal control (TSC) plays a central role in reducing congestion and maintaining urban mobility. This dissertation introduces DGLight, a critic-guided reinforcement-learning framework for adapting a pretrained large language model to TSC. DGLight first trains a CoLight-based Deep Q-Network critic to estimate traffic-aware action values from structured intersection states, then uses the frozen critic to score candidate language-model actions and optimize the policy with Group Relative Policy Optimization (GRPO). The resulting controller maps traffic states to interpretable reasoning traces and signal decisions while learning from dense per-state supervision rather than raw cumulative environment rewards. Experiments on TSC benchmarks covering Jinan and Hangzhou show that DGLight is the strongest overall method among the compared LLM-based controllers, remains competitive with strong RL baselines, and transfers well to city datasets not used to fit the critic. Qualitative examples further show that the model's generated reasoning is interpretable and aligned with the chosen signal phase. The project code is available $\href{https://github.com/yyccbb/FYP_LLMTSC}{here}$.