FAST: A Synergistic Framework of Attention and State-space Models for Spatiotemporal Traffic Prediction
作者: Xinjin Li, Jinghan Cao, Mengyue Wang, Yue Wu, Longxiang Yan, Yeyang Zhou, Ziqi Sha, Yu Ma
分类: cs.LG
发布日期: 2026-04-15
备注: Accepted by ICME 2026
💡 一句话要点
提出FAST框架,结合注意力机制与状态空间模型,用于时空交通预测。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation)
关键词: 时空预测 交通预测 注意力机制 状态空间模型 Mamba 图神经网络 深度学习
📋 核心要点
- 现有交通预测方法难以兼顾表达能力和计算效率,Transformer复杂度高,状态空间模型空间建模能力弱。
- FAST框架结合注意力机制和状态空间模型,利用时间注意力模块和Mamba空间模块,高效建模时空依赖关系。
- FAST在PeMS04、PeMS07和PeMS08数据集上超越现有方法,RMSE最多降低4.3%,MAE最多降低2.8%。
📝 摘要(中文)
交通预测需要在大型传感器网络上建模复杂的时序动态和长程空间依赖关系。现有方法通常面临表达能力和效率之间的权衡:基于Transformer的模型能很好地捕获全局依赖关系,但计算复杂度呈二次方增长;而最近的选择性状态空间模型计算效率高,但在建模图结构交通数据中的空间交互方面效果较差。我们提出了FAST,一个统一的框架,结合了注意力和状态空间建模,用于可扩展的时空交通预测。FAST采用时间-空间-时间的架构,其中时间注意力模块捕获短期和长期的时间模式,而基于Mamba的空间模块以线性复杂度建模长程传感器间依赖关系。为了更好地表示异构交通环境,FAST进一步引入了可学习的多源时空嵌入,集成了历史交通流量、时间上下文和节点级信息,以及用于分层特征融合的多级跳跃预测机制。在PeMS04、PeMS07和PeMS08上的实验表明,FAST始终优于来自Transformer、GNN、注意力和Mamba系列的强大基线。特别是,FAST在所有三个基准测试中都实现了最佳的MAE和RMSE,RMSE最多降低4.3%,MAE最多降低2.8%,证明了在准确性、可扩展性和泛化性之间取得了良好的平衡。
🔬 方法详解
问题定义:论文旨在解决时空交通预测问题,现有方法如Transformer计算复杂度高,难以处理大规模交通网络;而GNN等方法在捕捉长程空间依赖方面存在局限性,无法充分利用交通数据中的时空信息。
核心思路:论文的核心思路是结合注意力机制和状态空间模型各自的优势,设计一个既能有效建模长程时空依赖关系,又能保持计算效率的框架。通过时间注意力模块捕捉时间动态,利用Mamba结构的空间模块建模空间依赖,从而实现更准确的交通预测。
技术框架:FAST框架采用Temporal-Spatial-Temporal架构。首先,Temporal Attention模块处理输入的时间序列数据,提取短期和长期的时间特征。然后,Mamba-based Spatial模块利用提取的时间特征,建模传感器之间的空间依赖关系。最后,另一个Temporal Attention模块进一步处理空间模块的输出,生成最终的预测结果。此外,还引入了多源时空嵌入和多级跳跃预测机制,以增强模型的表达能力。
关键创新:FAST的关键创新在于将注意力机制和状态空间模型有机结合,并针对交通预测任务进行了优化。Mamba结构在建模长程依赖关系时具有线性复杂度,显著提高了计算效率。多源时空嵌入能够融合多种信息源,更全面地表示交通环境。
关键设计:时间注意力模块采用标准Transformer结构,Mamba空间模块使用选择性状态空间模型。多源时空嵌入融合了历史交通流量、时间上下文和节点级信息。多级跳跃预测机制通过在不同层级融合特征,提升预测精度。损失函数采用常用的均方误差(MSE)或平均绝对误差(MAE)。
🖼️ 关键图片
📊 实验亮点
FAST在PeMS04、PeMS07和PeMS08三个交通数据集上进行了实验,并与Transformer、GNN、注意力机制和Mamba等多种基线模型进行了比较。实验结果表明,FAST在所有数据集上均取得了最佳的MAE和RMSE指标,其中RMSE最多降低了4.3%,MAE最多降低了2.8%,验证了FAST框架的有效性和优越性。
🎯 应用场景
该研究成果可应用于智能交通管理系统、路径规划、交通流量控制等领域。通过更准确的交通预测,可以有效缓解交通拥堵,提高交通效率,降低环境污染,并为城市规划提供数据支持。未来可扩展到其他时空预测任务,如天气预报、能源需求预测等。
📄 摘要(原文)
Traffic forecasting requires modeling complex temporal dynamics and long-range spatial dependencies over large sensor networks. Existing methods typically face a trade-off between expressiveness and efficiency: Transformer-based models capture global dependencies well but suffer from quadratic complexity, while recent selective state-space models are computationally efficient yet less effective at modeling spatial interactions in graph-structured traffic data. We propose FAST, a unified framework that combines attention and state-space modeling for scalable spatiotemporal traffic forecasting. FAST adopts a Temporal-Spatial-Temporal architecture, where temporal attention modules capture both short- and long-term temporal patterns, and a Mamba-based spatial module models long-range inter-sensor dependencies with linear complexity. To better represent heterogeneous traffic contexts, FAST further introduces a learnable multi-source spatiotemporal embedding that integrates historical traffic flow, temporal context, and node-level information, together with a multi-level skip prediction mechanism for hierarchical feature fusion. Experiments on PeMS04, PeMS07, and PeMS08 show that FAST consistently outperforms strong baselines from Transformer-, GNN-, attention-, and Mamba-based families. In particular, FAST achieves the best MAE and RMSE on all three benchmarks, with up to 4.3\% lower RMSE and 2.8\% lower MAE than the strongest baseline, demonstrating a favorable balance between accuracy, scalability, and generalization.