Reprogramming Vision Foundation Models for Spatio-Temporal Forecasting

作者: Changlu Chen, Yanbin Liu, Chaoxi Niu, Ling Chen, Tianqing Zhu

分类: cs.CV, cs.AI

发布日期: 2025-07-14

💡 一句话要点

提出ST-VFM，通过重编程视觉基础模型解决时空预测问题。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 时空预测 视觉基础模型 重编程 双分支架构 时间序列建模

📋 核心要点

现有方法难以有效建模时空数据的复杂相关性，特别是时间维度上的依赖关系。
ST-VFM通过双分支结构和重编程策略，将视觉基础模型的空间先验知识迁移到时空预测任务中。
实验结果表明，ST-VFM在多个数据集上超越了现有方法，验证了其有效性和泛化能力。

📝 摘要（中文）

本文提出了一种新颖的框架ST-VFM，旨在系统地重编程视觉基础模型（VFMs），用于通用的时空预测。尽管VFMs具有强大的空间先验知识，但将其应用于时空任务时，存在两个关键挑战：缺乏固有的时间建模能力以及视觉和时空数据之间的模态差异。为了解决这些问题，ST-VFM采用双分支架构，将原始时空输入与辅助时空流输入相结合，其中流编码了可解释为动态空间线索的轻量级时间差分信号。为了有效地处理这些双分支输入，ST-VFM引入了两个专门的重编程阶段。预VFM重编程阶段应用时间感知Token适配器来嵌入时间上下文，并将两个分支对齐到VFM兼容的特征空间。后VFM重编程阶段引入双边交叉提示协调模块，通过基于提示的条件作用实现分支之间的动态交互，从而丰富联合表示学习，而无需修改冻结的VFM骨干网络。在十个时空数据集上的大量实验表明，ST-VFM优于最先进的基线，证明了其在VFM骨干网络（例如，DINO，CLIP，DEIT）和消融研究中的有效性和鲁棒性，从而确立了其作为时空预测的强大通用框架。

🔬 方法详解

问题定义：时空预测旨在根据历史数据预测未来一段时间内的空间和时间序列变化。现有方法，特别是基于大型语言模型的方法，主要关注一维时间序列建模，难以捕捉时空数据中丰富的空间和时间相关性。视觉基础模型虽然具有强大的空间建模能力，但缺乏时间建模能力，且与时空数据的模态存在差异。

核心思路：ST-VFM的核心思路是利用视觉基础模型强大的空间先验知识，并通过重编程的方式，使其适应时空预测任务。通过引入双分支结构，分别处理原始时空数据和编码时间信息的时空流数据，从而弥补视觉基础模型在时间建模方面的不足。

技术框架：ST-VFM采用双分支架构，包含预VFM重编程和后VFM重编程两个阶段。在预VFM重编程阶段，使用时间感知Token适配器将原始时空数据和时空流数据嵌入到VFM兼容的特征空间中，并融入时间上下文信息。在后VFM重编程阶段，使用双边交叉提示协调模块，通过prompt-based conditioning实现两个分支之间的动态交互，从而学习更丰富的联合表示。VFM骨干网络保持冻结状态。

关键创新：ST-VFM的关键创新在于双分支架构和两阶段重编程策略。双分支架构能够同时处理原始时空数据和时间信息，弥补了VFM在时间建模方面的不足。两阶段重编程策略能够有效地将时空数据嵌入到VFM的特征空间中，并实现分支之间的动态交互，从而学习更有效的联合表示。

关键设计：时间感知Token适配器用于将时空数据嵌入到VFM的特征空间中，并融入时间上下文信息。双边交叉提示协调模块通过prompt-based conditioning实现两个分支之间的动态交互。具体的网络结构和参数设置在论文中有详细描述，损失函数的设计旨在优化时空预测的准确性。

🖼️ 关键图片

📊 实验亮点

ST-VFM在十个时空数据集上进行了广泛的实验，结果表明其性能优于现有的最先进方法。例如，在某些数据集上，ST-VFM的预测精度提升了显著百分比（具体数值请参考原论文）。此外，消融实验验证了各个模块的有效性，证明了ST-VFM的鲁棒性和泛化能力。

🎯 应用场景

ST-VFM具有广泛的应用前景，例如交通流量预测、天气预报、环境监测、疾病传播建模等。该研究成果有助于提升时空预测的准确性和可靠性，为相关领域的决策提供更可靠的依据，并可能推动智慧城市、智能交通等领域的发展。

📄 摘要（原文）

Foundation models have achieved remarkable success in natural language processing and computer vision, demonstrating strong capabilities in modeling complex patterns. While recent efforts have explored adapting large language models (LLMs) for time-series forecasting, LLMs primarily capture one-dimensional sequential dependencies and struggle to model the richer spatio-temporal (ST) correlations essential for accurate ST forecasting. In this paper, we present \textbf{ST-VFM}, a novel framework that systematically reprograms Vision Foundation Models (VFMs) for general-purpose spatio-temporal forecasting. While VFMs offer powerful spatial priors, two key challenges arise when applying them to ST tasks: (1) the lack of inherent temporal modeling capacity and (2) the modality gap between visual and ST data. To address these, ST-VFM adopts a \emph{dual-branch architecture} that integrates raw ST inputs with auxiliary ST flow inputs, where the flow encodes lightweight temporal difference signals interpretable as dynamic spatial cues. To effectively process these dual-branch inputs, ST-VFM introduces two dedicated reprogramming stages. The \emph{pre-VFM reprogramming} stage applies a Temporal-Aware Token Adapter to embed temporal context and align both branches into VFM-compatible feature spaces. The \emph{post-VFM reprogramming} stage introduces a Bilateral Cross-Prompt Coordination module, enabling dynamic interaction between branches through prompt-based conditioning, thus enriching joint representation learning without modifying the frozen VFM backbone. Extensive experiments on ten spatio-temporal datasets show that ST-VFM outperforms state-of-the-art baselines, demonstrating effectiveness and robustness across VFM backbones (e.g., DINO, CLIP, DEIT) and ablation studies, establishing it as a strong general framework for spatio-temporal forecasting.

Reprogramming Vision Foundation Models for Spatio-Temporal Forecasting

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理