Uncovering Zero-Shot Generalization Gaps in Time-Series Foundation Models Using Real-World Videos

📄 arXiv: 2509.26347v2 📥 PDF

作者: Lujun Li, Lama Sleem, Yiqun Wang, Yangjie Xu, Niccolò Gentile, Radu State

分类: cs.AI

发布日期: 2025-09-30 (更新: 2025-11-28)

备注: This paper has been accepted by Artificial Intelligence for Time Series Analysis (AI4TS) Workshop @ AAAI 2026: Theory, Algorithms, and Applications


💡 一句话要点

提出REAL-V-TSFM数据集,揭示时序基础模型在真实视频数据上的泛化差距

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 时间序列基础模型 零样本学习 泛化能力 真实世界视频 光流法

📋 核心要点

  1. 现有时序基础模型数据集缺乏真实世界数据,过度依赖合成数据,导致模型泛化能力受限。
  2. 提出REAL-V-TSFM数据集,利用光流技术从真实视频中提取时间序列,模拟真实物理世界的时序动态。
  3. 实验表明,现有模型在REAL-V-TSFM数据集上性能显著下降,揭示了模型在真实场景下的泛化差距。

📝 摘要(中文)

本文旨在解决时序基础模型(TSFMs)在真实世界数据上泛化能力不足的问题。现有数据集通常依赖合成数据,其泛化性备受争议。为此,我们提出了一种新的基准测试方法,构建了一个名为REAL-V-TSFM的数据集,该数据集通过光流技术从真实世界视频中提取时间序列信号,从而反映真实的物理时间动态。在零样本预测的实验中,最先进的TSFMs在传统基准测试中表现出色,但在我们提出的数据集上性能下降,表明其泛化能力有限。这些发现强调了获取时间序列数据的新方法的需求,并突出了现有TSFMs的局限性,同时也验证了我们基于视频的时间序列数据提取流程的有效性。

🔬 方法详解

问题定义:论文旨在评估现有时间序列基础模型(TSFMs)在真实世界数据上的零样本泛化能力。现有TSFM数据集通常包含大量合成数据,这使得模型在这些数据集上表现良好,但无法保证其在真实场景中的性能。因此,如何评估TSFM在真实世界数据上的泛化能力是一个关键问题。

核心思路:论文的核心思路是通过构建一个基于真实世界视频的时间序列数据集,来评估TSFM的泛化能力。该数据集通过从真实视频中提取时间序列信号,从而反映真实的物理时间动态。通过在该数据集上测试TSFM的性能,可以更准确地评估其在真实场景中的泛化能力。

技术框架:该方法主要包含以下几个阶段:1) 收集真实世界视频数据;2) 使用光流技术从视频中提取时间序列信号;3) 构建REAL-V-TSFM数据集;4) 在REAL-V-TSFM数据集上测试现有TSFM的零样本预测性能;5) 分析实验结果,评估TSFM的泛化能力。

关键创新:该论文的关键创新在于提出了REAL-V-TSFM数据集,该数据集是第一个基于真实世界视频的时间序列数据集。与现有数据集相比,REAL-V-TSFM数据集更能反映真实的物理时间动态,因此可以更准确地评估TSFM的泛化能力。此外,该论文还提出了一种基于光流技术的时间序列提取流程,该流程可以有效地从视频中提取时间序列信号。

关键设计:在数据提取方面,论文使用了光流法来估计视频中像素的运动,并将这些运动信息转换为时间序列信号。具体来说,论文使用了Dense Optical Flow算法,该算法可以计算视频中每个像素的运动矢量。然后,论文将这些运动矢量进行聚合,得到一个代表整个视频的时间序列信号。在实验方面,论文选择了多个最先进的TSFM作为基线模型,并在REAL-V-TSFM数据集上进行了零样本预测实验。论文使用了常用的时间序列预测指标,如均方误差(MSE)和平均绝对误差(MAE),来评估模型的性能。

📊 实验亮点

实验结果表明,尽管现有TSFM在传统数据集上表现良好,但在REAL-V-TSFM数据集上性能显著下降。例如,某些模型在REAL-V-TSFM上的预测误差比在传统数据集上高出50%以上,这表明现有模型在真实世界数据上的泛化能力存在明显差距。这些结果突出了REAL-V-TSFM数据集的价值,并为未来的研究提供了新的方向。

🎯 应用场景

该研究成果可应用于评估和改进时间序列基础模型在真实场景中的泛化能力。例如,在智能交通、金融预测、工业监控等领域,可以利用该数据集和评估方法来选择和优化适用于特定场景的TSFM,从而提高预测精度和可靠性。未来,该研究可以促进更通用、更鲁棒的时序模型的开发。

📄 摘要(原文)

Recent research on time-series foundation models (TSFMs) has underscored the scarcity of real-world data, often supplemented with synthetic sources in existing datasets, whose generalizability remains however debated. As such, in this work, we propose a novel benchmarking approach: in particular, we aim at building a curated dataset reflecting real world physical temporal dynamics, extracting temporal signals from real-world videos using optical flow. As such, we introduce REAL-V-TSFM, a novel dataset designed to capture rich and diverse time series derived from real-world videos. Experimental results on state-of-the-art TSFMs under zero-shot forecasting show that, despite strong performance on conventional benchmarks, these models exhibit performance degradation on the proposed dataset, suggesting limited generalizability to novel datasets. These findings underscore the need for novel approaches to acquiring time series data and highlight the lack of universality in recent TSFMs, while further validating the effectiveness of our video-based time series data extraction pipeline.