A Dual Large Language Models Architecture with Herald Guided Prompts for Parallel Fine Grained Traffic Signal Control
作者: Qing Guo, Xinhang Li, Junyu Chen, Zheng Guo, Xiaocong Li, Lin Zhang, Lei Li
分类: cs.LG, cs.AI
发布日期: 2025-10-31
🔗 代码/项目: GITHUB
💡 一句话要点
提出HeraldLight,一种双LLM架构,用于并行细粒度交通信号控制,显著降低平均通行时间和排队长度。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 交通信号控制 大型语言模型 双LLM架构 智能交通 强化学习 交通优化 排队长度预测
📋 核心要点
- 现有基于LLM的交通信号控制方法受限于固定时长,易产生幻觉错误,而强化学习方法在信号配时决策上缺乏鲁棒性和泛化能力。
- HeraldLight采用双LLM架构,利用Herald模块提取上下文信息并预测排队长度,指导LLM-Agent进行控制,LLM-Critic纠正错误并优化输出。
- 实验结果表明,HeraldLight在真实数据集上显著优于现有方法,平均通行时间减少20.03%,平均排队长度减少10.74%。
📝 摘要(中文)
本文提出了一种名为HeraldLight的双大型语言模型(LLM)架构,该架构通过Herald引导提示来增强并行细粒度交通信号控制(TSC)。Herald模块提取上下文信息,并基于实时路况预测每个交通相位的排队长度。第一个LLM,LLM-Agent,利用这些预测进行细粒度交通信号控制;第二个LLM,LLM-Critic,负责优化LLM-Agent的输出,纠正错误和幻觉。这些优化后的输出用于基于分数的微调,以提高准确性和鲁棒性。在济南(12个路口)、杭州(16个路口)和纽约(196个路口)的真实数据集上,使用CityFlow进行的仿真实验表明,HeraldLight优于最先进的基线方法,在所有场景中平均通行时间减少了20.03%,在济南和杭州场景中平均排队长度减少了10.74%。源代码已在GitHub上发布。
🔬 方法详解
问题定义:现有基于LLM的交通信号控制方法通常采用固定时长的信号配时,无法根据实时交通状况进行动态调整,并且容易产生幻觉错误,导致不合理的控制决策。传统的强化学习方法虽然可以进行动态调整,但在信号配时决策上缺乏鲁棒性,泛化能力较差,难以适应复杂的交通环境。
核心思路:HeraldLight的核心思路是利用双LLM架构,结合上下文信息提取和预测,实现更准确、鲁棒的细粒度交通信号控制。通过Herald模块提取交通状态信息并预测排队长度,为LLM-Agent提供更可靠的输入。LLM-Critic则负责纠正LLM-Agent的错误和幻觉,提高控制决策的合理性。
技术框架:HeraldLight包含三个主要模块:Herald模块、LLM-Agent和LLM-Critic。Herald模块负责从交通环境中提取上下文信息,并预测每个交通相位的排队长度。LLM-Agent接收Herald模块的输出,并生成细粒度的交通信号控制策略。LLM-Critic评估LLM-Agent的输出,并进行优化和纠错。优化后的输出用于基于分数的微调,进一步提高LLM-Agent的性能。
关键创新:HeraldLight的关键创新在于双LLM架构和Herald引导提示。双LLM架构通过LLM-Agent和LLM-Critic的协同工作,提高了控制决策的准确性和鲁棒性。Herald引导提示则通过提供上下文信息和预测,减少了LLM-Agent产生幻觉错误的可能性。与现有方法相比,HeraldLight能够更好地适应复杂的交通环境,实现更优的控制效果。
关键设计:Herald模块使用历史交通数据和实时交通数据来预测排队长度。LLM-Agent和LLM-Critic可以使用不同的LLM模型,例如GPT系列。基于分数的微调使用LLM-Critic的输出作为奖励信号,调整LLM-Agent的参数。具体的损失函数和网络结构等技术细节在论文中进行了详细描述(未知)。
🖼️ 关键图片
📊 实验亮点
实验结果表明,HeraldLight在真实数据集上显著优于现有方法。在所有场景中,平均通行时间减少了20.03%。在济南和杭州的场景中,平均排队长度减少了10.74%。这些数据表明,HeraldLight在提高交通效率和减少拥堵方面具有显著优势。
🎯 应用场景
该研究成果可应用于智能交通管理系统,优化城市交通信号控制,减少交通拥堵,提高道路通行效率。通过降低车辆的平均通行时间和排队长度,可以有效减少燃油消耗和尾气排放,具有显著的社会和环境效益。未来,该技术可进一步扩展到更复杂的交通场景,例如多路口协同控制和动态路径规划。
📄 摘要(原文)
Leveraging large language models (LLMs) in traffic signal control (TSC) improves optimization efficiency and interpretability compared to traditional reinforcement learning (RL) methods. However, existing LLM-based approaches are limited by fixed time signal durations and are prone to hallucination errors, while RL methods lack robustness in signal timing decisions and suffer from poor generalization. To address these challenges, this paper proposes HeraldLight, a dual LLMs architecture enhanced by Herald guided prompts. The Herald Module extracts contextual information and forecasts queue lengths for each traffic phase based on real-time conditions. The first LLM, LLM-Agent, uses these forecasts to make fine grained traffic signal control, while the second LLM, LLM-Critic, refines LLM-Agent's outputs, correcting errors and hallucinations. These refined outputs are used for score-based fine-tuning to improve accuracy and robustness. Simulation experiments using CityFlow on real world datasets covering 224 intersections in Jinan (12), Hangzhou (16), and New York (196) demonstrate that HeraldLight outperforms state of the art baselines, achieving a 20.03% reduction in average travel time across all scenarios and a 10.74% reduction in average queue length on the Jinan and Hangzhou scenarios. The source code is available on GitHub: https://github.com/BUPT-ANTlab/HeraldLight.