VisionTS: Visual Masked Autoencoders Are Free-Lunch Zero-Shot Time Series Forecasters

作者: Mouxiang Chen, Lefei Shen, Zhuo Li, Xiaoyun Joy Wang, Jianling Sun, Chenghao Liu

分类: cs.CV, cs.AI, cs.LG

发布日期: 2024-08-30 (更新: 2025-06-06)

备注: v4: accepted by ICML 2025

🔗 代码/项目: GITHUB

💡 一句话要点

VisionTS：利用视觉掩码自编码器实现零样本时间序列预测

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 时间序列预测 视觉掩码自编码器 零样本学习 跨模态学习 图像重建 预训练模型

📋 核心要点

现有时间序列预测方法依赖于大型语言模型或构建大规模时间序列数据集，但面临跨领域差距或领域内异质性挑战。
VisionTS将时间序列预测转化为图像重建任务，利用预训练的视觉掩码自编码器，无需额外的时间序列领域适应。
实验表明，VisionTS在零样本预测中优于现有TSF基础模型，微调后可进一步提升性能，达到SOTA水平。

📝 摘要（中文）

本文提出了一种新的时间序列预测（TSF）基础模型构建方法，该方法利用高质量的自然图像。核心思想是将预训练在ImageNet数据集上的视觉掩码自编码器（MAE）转化为数值序列预测器。通过将TSF重新定义为图像重建任务，弥合了图像预训练和TSF下游任务之间的差距。令人惊讶的是，在没有时间序列领域进一步适应的情况下，所提出的VisionTS能够实现比现有TSF基础模型更好的零样本预测性能。经过一个epoch的微调，VisionTS可以进一步提高预测性能，并在大多数情况下实现最先进的性能。大量实验揭示了图像和真实世界时间序列之间的内在相似性，表明视觉模型可能为TSF提供“免费午餐”，并突出了未来跨模态研究的潜力。代码已公开。

🔬 方法详解

问题定义：论文旨在解决时间序列预测任务中，现有方法对领域适应性差、需要大量特定领域数据的问题。现有方法要么依赖于大型语言模型，但存在跨领域鸿沟；要么构建大规模时间序列数据集，但面临领域内数据异质性挑战，泛化能力受限。

核心思路：论文的核心思路是将时间序列预测问题转化为图像重建问题，利用在ImageNet等大规模图像数据集上预训练的视觉掩码自编码器（MAE）作为时间序列预测的基础模型。通过这种方式，可以利用图像领域丰富的先验知识，避免从零开始训练时间序列模型，从而提高模型的泛化能力和零样本预测性能。

技术框架：VisionTS的整体框架包括以下几个步骤：1) 将时间序列数据编码为图像格式；2) 使用预训练的视觉掩码自编码器对图像进行编码和解码；3) 将解码后的图像转换回时间序列数据，从而实现时间序列预测。具体来说，输入的时间序列被转换为二维图像，然后输入到预训练的MAE中。MAE通过掩码部分图像并重建原始图像来学习图像的潜在表示。解码器将学习到的表示解码为重建的图像，该图像随后被转换回预测的时间序列。

关键创新：论文最重要的技术创新点在于将视觉掩码自编码器应用于时间序列预测，并证明了预训练的视觉模型可以直接用于时间序列预测，而无需进行大量的领域特定训练。这种跨模态迁移学习的方法，为时间序列预测提供了一种新的思路。

关键设计：论文的关键设计包括：1) 将时间序列数据转换为图像数据的编码方式；2) 使用预训练的视觉掩码自编码器作为基础模型；3) 将重建的图像数据转换回时间序列数据的解码方式。具体参数设置和网络结构细节可以参考原始论文和代码。

🖼️ 关键图片

📊 实验亮点

VisionTS在多个时间序列预测数据集上进行了评估，结果表明，在零样本预测中，VisionTS优于现有的时间序列预测基础模型。经过一个epoch的微调，VisionTS在大多数情况下实现了最先进的性能。例如，在某些数据集上，VisionTS的预测误差降低了10%以上，证明了该方法的有效性和优越性。

🎯 应用场景

VisionTS具有广泛的应用前景，例如金融市场预测、能源消耗预测、医疗健康监测等。该方法可以降低时间序列预测对特定领域数据的依赖，提高模型的泛化能力，从而在数据稀缺或领域快速变化的场景中发挥重要作用。未来，该研究可以促进跨模态学习在时间序列分析中的应用，例如结合文本、音频等信息进行更准确的预测。

📄 摘要（原文）

Foundation models have emerged as a promising approach in time series forecasting (TSF). Existing approaches either repurpose large language models (LLMs) or build large-scale time series datasets to develop TSF foundation models for universal forecasting. However, these methods face challenges due to the severe cross-domain gap or in-domain heterogeneity. This paper explores a new road to building a TSF foundation model from rich, high-quality natural images. Our key insight is that a visual masked autoencoder, pre-trained on the ImageNet dataset, can naturally be a numeric series forecaster. By reformulating TSF as an image reconstruction task, we bridge the gap between image pre-training and TSF downstream tasks. Surprisingly, without further adaptation in the time series domain, the proposed VisionTS could achieve better zero-shot forecast performance than existing TSF foundation models. With fine-tuning for one epoch, VisionTS could further improve the forecasting and achieve state-of-the-art performance in most cases. Extensive experiments reveal intrinsic similarities between images and real-world time series, suggesting that visual models may offer a "free lunch" for TSF and highlight the potential for future cross-modality research. Our code is publicly available at https://github.com/Keytoyze/VisionTS.

VisionTS: Visual Masked Autoencoders Are Free-Lunch Zero-Shot Time Series Forecasters

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理