Vision-LLMs for Spatiotemporal Traffic Forecasting

📄 arXiv: 2510.11282v1 📥 PDF

作者: Ning Yang, Hengyu Zhong, Haijun Zhang, Randall Berry

分类: cs.LG

发布日期: 2025-10-13


💡 一句话要点

提出ST-Vision-LLM,将时空交通预测转化为视觉-语言融合问题,提升预测精度。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 时空交通预测 视觉-语言融合 大型语言模型 Vision-LLM 强化学习 数值编码 迁移学习

📋 核心要点

  1. 现有方法难以有效建模网格交通数据的复杂时空依赖性,且处理大量地理网格信息效率低下。
  2. ST-Vision-LLM将时空预测转化为视觉-语言融合问题,利用Vision-LLM编码器处理交通矩阵图像序列。
  3. 实验表明,ST-Vision-LLM在长期预测精度和跨域少样本场景中显著优于现有方法。

📝 摘要(中文)

精确的时空交通预测是密集城市移动网络中主动资源管理的关键前提。虽然大型语言模型(LLM)在时间序列分析中显示出潜力,但它们在建模基于网格的交通数据的复杂空间依赖性方面存在固有的困难。有效地将LLM扩展到该领域具有挑战性,因为表示来自密集地理网格的大量信息可能效率低下并使模型的上下文不堪重负。为了应对这些挑战,我们提出了一种新的框架ST-Vision-LLM,该框架将时空预测重新定义为视觉-语言融合问题。我们的方法利用Vision-LLM视觉编码器将历史全局交通矩阵处理为图像序列,为模型提供全面的全局视图,从而为小区级别的预测提供信息。为了克服LLM在处理数值数据方面的低效率,我们引入了一种高效的编码方案,该方案通过专门的词汇表将浮点值表示为单个token,并结合了两阶段的数值对齐微调过程。该模型首先使用监督微调(SFT)进行训练,然后使用组相对策略优化(GRPO)进行优化,以提高预测精度,GRPO是一种内存高效的强化学习方法。在真实移动流量数据集上的评估表明,ST-Vision-LLM在长期预测精度方面优于现有方法15.6%,并且在跨域少样本场景中超过了第二好的基线30.04%以上。我们广泛的实验验证了该模型在各种数据稀缺环境中的强大泛化能力。

🔬 方法详解

问题定义:论文旨在解决城市移动网络中精确时空交通预测的问题。现有方法,特别是直接应用LLM的方法,难以有效建模交通数据的复杂空间依赖性,并且处理大量网格数据时效率低下,导致预测精度不足。

核心思路:论文的核心思路是将时空交通预测问题转化为一个视觉-语言融合问题。通过将历史交通数据表示为图像序列,利用Vision-LLM的视觉编码能力提取空间特征,并结合LLM的序列建模能力进行预测。这种方法能够更有效地捕捉交通数据的时空依赖性。

技术框架:ST-Vision-LLM框架主要包含以下几个模块:1) 视觉编码器:使用Vision-LLM将历史全局交通矩阵编码为图像序列,提取空间特征。2) 数值编码方案:设计了一种高效的数值编码方案,将浮点数值转换为单个token,提高LLM处理数值数据的效率。3) LLM预测器:利用LLM对编码后的时空特征进行序列建模和预测。4) 两阶段微调:首先使用监督微调(SFT)进行预训练,然后使用组相对策略优化(GRPO)进行强化学习微调,进一步提高预测精度。

关键创新:该论文的关键创新在于将时空交通预测问题重新定义为视觉-语言融合问题,并设计了相应的ST-Vision-LLM框架。与传统方法相比,该方法能够更有效地利用Vision-LLM的视觉编码能力提取空间特征,并结合LLM的序列建模能力进行预测,从而提高预测精度。此外,高效的数值编码方案和两阶段微调策略也为模型的性能提升做出了贡献。

关键设计:在数值编码方面,论文设计了一种专门的词汇表,将浮点数值映射为单个token,避免了LLM处理数值数据的低效率问题。在微调方面,采用了两阶段策略:首先使用监督微调(SFT)进行预训练,然后使用组相对策略优化(GRPO)进行强化学习微调。GRPO是一种内存高效的强化学习方法,能够有效优化模型的预测精度。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,ST-Vision-LLM在长期预测精度方面优于现有方法15.6%,并且在跨域少样本场景中超过了第二好的基线30.04%以上。这些数据表明,该模型在时空交通预测方面具有显著的优势,尤其是在数据稀缺和跨领域应用场景下。

🎯 应用场景

该研究成果可应用于智能交通管理、城市规划、移动网络资源优化等领域。通过精确预测交通流量,可以实现更高效的交通调度、更合理的资源分配,并为未来的城市发展提供数据支持。该模型在数据稀缺环境下的泛化能力,使其在实际应用中具有更大的潜力。

📄 摘要(原文)

Accurate spatiotemporal traffic forecasting is a critical prerequisite for proactive resource management in dense urban mobile networks. While Large Language Models (LLMs) have shown promise in time series analysis, they inherently struggle to model the complex spatial dependencies of grid-based traffic data. Effectively extending LLMs to this domain is challenging, as representing the vast amount of information from dense geographical grids can be inefficient and overwhelm the model's context. To address these challenges, we propose ST-Vision-LLM, a novel framework that reframes spatiotemporal forecasting as a vision-language fusion problem. Our approach leverages a Vision-LLM visual encoder to process historical global traffic matrices as image sequences, providing the model with a comprehensive global view to inform cell-level predictions. To overcome the inefficiency of LLMs in handling numerical data, we introduce an efficient encoding scheme that represents floating-point values as single tokens via a specialized vocabulary, coupled with a two-stage numerical alignment fine-tuning process. The model is first trained with Supervised Fine-Tuning (SFT) and then further optimized for predictive accuracy using Group Relative Policy Optimization (GRPO), a memory-efficient reinforcement learning method. Evaluations on real-world mobile traffic datasets demonstrate that ST-Vision-LLM outperforms existing methods by 15.6% in long-term prediction accuracy and exceeds the second-best baseline by over 30.04% in cross-domain few-shot scenarios. Our extensive experiments validate the model's strong generalization capabilities across various data-scarce environments.