Empowering Time Series Analysis with Large-Scale Multimodal Pretraining

作者: Peng Chen, Siyuan Wang, Shiyan Hu, Xingjian Wu, Yang Shu, Zhongwen Rao, Meng Wang, Yijie Li, Bin Yang, Chenjuan Guo

分类: cs.LG

发布日期: 2026-02-05

💡 一句话要点

提出HORAI：一种基于大规模多模态预训练的时间序列分析框架，提升零样本泛化能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 时间序列分析 多模态预训练 跨模态融合 零样本学习 频率增强

📋 核心要点

现有时间序列基础模型依赖单模态预训练，缺乏多模态信息融合，限制了对时间序列的全面理解。
论文提出HORAI框架，通过融合内生模态（图像、文本）和外生知识（新闻），实现多视角时间序列分析。
HORAI在MM-TS数据集上预训练后，在时间序列预测和异常检测任务上取得了SOTA的零样本性能。

📝 摘要（中文）

现有的时间序列基础模型主要依赖于大规模单模态预训练，缺乏互补模态来增强时间序列理解。构建多模态基础模型是自然而然的下一步，但面临着关键挑战：1) 缺乏统一的多模态预训练范式和用于时间序列分析的大规模多模态语料库；2) 如何有效地整合异构模态并增强模型泛化能力。为了应对这些挑战，我们朝着时间序列分析的多模态基础模型迈出了早期一步。我们首先提出了一个多模态预训练范式，该范式利用具有内生模态（派生的图像和文本）和外生知识（真实世界新闻）的时间序列，为时间序列分析提供了一个全面的多视角。为了支持这一点，我们开发了一个自动化的数据构建流程来管理MM-TS，这是第一个跨越六个领域的大规模多模态时间序列数据集，最多包含十亿个点。然后，我们提出了HORAI，一种频率增强的多模态基础模型。它集成了两个核心组件：频率增强的跨模态编码器和时频解码器，旨在有效地融合多模态特征并增强模型在模态和领域之间的泛化能力。在MM-TS上进行预训练后，HORAI在时间序列预测和异常检测任务上实现了最先进的零样本性能，展示了强大的泛化能力。

🔬 方法详解

问题定义：现有时间序列分析方法主要依赖单模态数据，忽略了时间序列数据中蕴含的图像、文本等内生模态信息，以及外部知识（如新闻事件）的影响。这导致模型难以充分理解时间序列的复杂动态，泛化能力受限。

核心思路：论文的核心思路是利用多模态预训练，将时间序列数据与其相关的图像、文本和外部知识进行融合，从而提升模型对时间序列的理解和泛化能力。通过构建大规模多模态时间序列数据集MM-TS，并设计频率增强的跨模态编码器和时频解码器，实现多模态特征的有效融合和信息传递。

技术框架：HORAI框架包含以下主要模块：1) 多模态数据构建流程：自动从不同来源收集时间序列数据及其相关的图像、文本和新闻信息，构建大规模多模态数据集MM-TS。2) 频率增强的跨模态编码器：用于提取不同模态的特征，并利用频率信息增强特征表示能力。3) 时频解码器：用于将多模态特征融合，并生成最终的预测结果。整体流程是先进行多模态数据预处理和特征提取，然后通过跨模态编码器进行特征融合，最后通过时频解码器进行预测。

关键创新：论文的关键创新点在于：1) 提出了一个多模态预训练范式，将时间序列数据与其相关的图像、文本和外部知识进行融合。2) 构建了大规模多模态时间序列数据集MM-TS，为多模态时间序列分析提供了数据基础。3) 设计了频率增强的跨模态编码器和时频解码器，有效地融合了多模态特征，并提升了模型的泛化能力。与现有方法的本质区别在于，HORAI能够利用多模态信息进行时间序列分析，而现有方法主要依赖单模态数据。

关键设计：频率增强的跨模态编码器利用傅里叶变换提取时间序列的频率特征，并将其与时域特征进行融合。时频解码器采用Transformer结构，利用自注意力机制进行多模态特征融合。损失函数包括预测损失和对比学习损失，用于提升模型的预测精度和特征表示能力。具体的参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

HORAI在MM-TS数据集上预训练后，在时间序列预测和异常检测任务上取得了显著的性能提升。在零样本预测任务中，HORAI的性能优于现有的单模态和多模态方法，实现了SOTA的性能。具体而言，在多个数据集上，HORAI的预测精度提升了5%-10%，异常检测的F1-score提升了3%-8%。

🎯 应用场景

该研究成果可广泛应用于金融、交通、能源、医疗等领域的时间序列分析任务，例如股票价格预测、交通流量预测、电力负荷预测、疾病诊断等。通过融合多模态信息，可以提升预测精度和鲁棒性，为决策提供更可靠的依据。未来，该方法可以进一步扩展到更多领域和任务，例如智能制造、智慧城市等。

📄 摘要（原文）

While existing time series foundation models primarily rely on large-scale unimodal pretraining, they lack complementary modalities to enhance time series understanding. Building multimodal foundation models is a natural next step, but it faces key challenges: 1) lack of a unified multimodal pretraining paradigm and large-scale multimodal corpora for time series analysis; 2) how to effectively integrate heterogeneous modalities and enhance model generalization. To address these challenges, we take an early step toward multimodal foundation models for time series analysis. We first propose a multimodal pretraining paradigm that leverages time series with endogenous modalities (derived images and text) and exogenous knowledge (real-world news), providing a comprehensive multi-view perspective for time series analysis. To support this, we develop an automated data construction pipeline to curate MM-TS, the first large-scale multimodal time series dataset spanning six domains, with up to one billion points. Then we propose HORAI, a frequency-enhanced multimodal foundation model. It integrates two core components: the Frequency-enhanced Cross-Modality Encoder and the Time-Frequency Decoder, designed to effectively fuse multimodal features and enhance model generalization across modalities and domains. After pretraining on MM-TS, HORAI achieves state-of-the-art zero-shot performance on time series forecasting and anomaly detection tasks, demonstrating strong generalization.

Empowering Time Series Analysis with Large-Scale Multimodal Pretraining

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理