U-STS-LLM A Unified Spatio-Temporal Steered Large Language Model for Traffic Prediction and Imputation

📄 arXiv: 2605.11735v1 📥 PDF

作者: Yichen Zhang, Jun Li

分类: cs.LG, eess.SP

发布日期: 2026-05-12

备注: 14 pages, 6 figures


💡 一句话要点

提出U-STS-LLM,用于统一解决时空交通预测和补全问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 时空数据预测 时空数据补全 大型语言模型 注意力机制 图神经网络 低秩适应 多任务学习

📋 核心要点

  1. 现有STGNN方法在时空交通预测和补全任务中存在计算密集、泛化性差等问题,且预测和补全通常被视为独立任务。
  2. U-STS-LLM通过动态时空注意力偏差生成器引导LLM关注时空信息,并采用LoRA和门控融合机制实现高效稳定的模型微调。
  3. 实验表明,U-STS-LLM在长时程预测和高缺失率补全任务上均取得了SOTA性能,同时保持了较高的训练效率和稳定性。

📝 摘要(中文)

现代蜂窝网络的高效运行依赖于对时空交通数据的精确分析。掌握这些模式对于核心网络功能至关重要,主要包括预测未来负载以避免拥塞,以及填补因传感器故障或传输错误导致的缺失值以确保数据连续性。虽然预测和补全密切相关,但它们在历史上是作为独立的子领域发展的。时空图神经网络(STGNNs)是主流方法,但通常是专门化的、计算密集型的,并且泛化能力有限。同时,采用大型预训练语言模型(LLMs)为序列建模提供了一种强大的替代方案,但现有方法提供的结构指导较弱,导致收敛不稳定,并且仅关注预测。为了弥合这些差距,我们提出了U-STS-LLM,这是一个建立在时空引导LLM之上的统一框架。我们的核心创新是动态时空注意力偏差生成器,它合成了具有瞬态节点状态的持久功能图,以显式地引导LLM的注意力。结合通过低秩适应(LoRA)调整的半冻结骨干网络和门控自适应融合机制,该模型实现了稳定、参数高效的适应。在统一的多任务目标下训练,U-STS-LLM学习整体数据表示。在真实蜂窝数据集上的大量实验表明,U-STS-LLM在长时程预测和高缺失率插补方面都建立了新的最先进性能,同时保持了卓越的训练效率和稳定性,为在结构化、非语言领域中利用基础模型提供了一种新的蓝图。

🔬 方法详解

问题定义:论文旨在解决蜂窝网络中时空交通数据的预测和补全问题。现有方法,特别是STGNNs,通常计算成本高昂,泛化能力有限,并且通常将预测和补全作为独立的任务处理。此外,直接应用LLM到该领域缺乏有效的结构化指导,导致训练不稳定和任务单一。

核心思路:论文的核心思路是利用大型语言模型(LLM)强大的序列建模能力,并引入时空信息作为显式的注意力引导,从而实现统一的、高效的交通预测和补全。通过动态生成时空注意力偏差,模型能够更好地理解和利用数据中的时空依赖关系。

技术框架:U-STS-LLM框架主要包含以下几个模块:1) 动态时空注意力偏差生成器:负责生成时空注意力偏差,引导LLM关注重要的时空信息。2) LLM骨干网络:采用预训练的LLM作为序列建模的基础。3) 低秩适应(LoRA):用于参数高效地微调LLM。4) 门控自适应融合机制:用于融合不同来源的信息,提高模型的鲁棒性。整个框架通过一个统一的多任务目标进行训练,同时优化预测和补全的性能。

关键创新:论文的关键创新在于动态时空注意力偏差生成器,它能够将时空信息显式地融入到LLM的注意力机制中。与现有方法相比,U-STS-LLM不是简单地将LLM应用于时空数据,而是通过结构化的方式引导LLM学习时空依赖关系,从而提高了模型的性能和泛化能力。此外,统一的多任务学习框架也是一个重要的创新,它使得模型能够同时学习预测和补全任务,从而提高了整体的效率。

关键设计:动态时空注意力偏差生成器通过合成一个持久的功能图和瞬态节点状态来生成注意力偏差。持久功能图表示节点之间的长期关系,而瞬态节点状态表示节点在特定时间的状态。这些信息被用来调整LLM的注意力权重,使得模型能够更好地关注重要的时空信息。LoRA被用于参数高效地微调LLM,避免了对整个模型进行微调,从而降低了计算成本。门控自适应融合机制使用门控单元来控制不同来源信息的融合比例,从而提高模型的鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,U-STS-LLM在长时程预测和高缺失率补全任务上均取得了显著的性能提升,超越了现有的SOTA方法。例如,在高缺失率补全任务中,U-STS-LLM的性能提升超过10%。同时,该模型在训练效率和稳定性方面也表现出色,证明了其在实际应用中的潜力。

🎯 应用场景

该研究成果可应用于智能交通系统、城市规划、无线网络优化等领域。通过准确预测交通流量,可以优化交通信号灯配时,缓解交通拥堵。通过填补缺失的交通数据,可以提高交通监控系统的可靠性。此外,该方法还可以应用于其他时空数据分析任务,例如环境监测和气候预测。

📄 摘要(原文)

The efficient operation of modern cellular networks hinges on the accurate analysis of spatio-temporal traffic data. Mastering these patterns is essential for core network functions, chiefly forecasting future load to pre-empt congestion and imputing missing values caused by sensor failures or transmission errors to ensure data continuity. While deeply connected, forecasting and imputation have historically evolved as separate sub-fields. The dominant paradigm, Spatio-Temporal Graph Neural Networks (STGNNs), while effective, are often specialized, computationally intensive, and exhibit limited generalization. Concurrently, adapting large pre-trained language models (LLMs) offers a powerful alternative for sequence modeling, yet existing approaches provide weak structural guidance, leading to unstable convergence and a narrow focus on forecasting. To bridge these gaps, we propose U-STS-LLM, a unified framework built on a spatio-temporally steered LLM. Our core innovation is a Dynamic Spatio-Temporal Attention Bias Generator that synthesizes a persistent functional graph with transient nodal states to explicitly steer the LLM's attention. Coupled with a partially frozen backbone tuned via Low-Rank Adaptation (LoRA) and a Gated Adaptive Fusion mechanism, the model achieves stable, parameter-efficient adaptation. Trained under a unified multi-task objective, U-STS-LLM learns a holistic data representation. Extensive experiments on real-world cellular datasets demonstrate that U-STS-LLM establishes new state-of-the-art performance in both long-horizon forecasting and high-missing-rate imputation, while maintaining remarkable training efficiency and stability, offering a novel blueprint for harnessing foundation models in structured, non-linguistic domains.