Time to Embed: Unlocking Foundation Models for Time Series with Channel Descriptions

📄 arXiv: 2505.14543v1 📥 PDF

作者: Utsav Dutta, Sina Khoshfetrat Pakazad, Henrik Ohlsson

分类: cs.LG

发布日期: 2025-05-20


💡 一句话要点

CHARM:一种结合通道描述的时间序列基础嵌入模型,实现卓越的表征学习。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 时间序列 表征学习 基础模型 联合嵌入 通道描述 Transformer 对比学习

📋 核心要点

  1. 传统时间序列模型依赖于特定任务和数据集的训练,以及大量的人工特征工程,泛化能力弱。
  2. CHARM通过结合通道级文本描述,并采用联合嵌入预测架构(JEPA)进行训练,学习可迁移的时间序列表征。
  3. 实验结果表明,CHARM在各种下游任务中取得了最先进的性能,显著提升了时间序列表征学习的效果。

📝 摘要(中文)

本文提出了一种名为CHARM的时间序列基础嵌入模型,用于多变量时间序列的共享、可迁移和领域感知的表征学习。针对时间序列基础学习的特殊挑战,CHARM集成了通道级文本描述,并保持对通道顺序的不变性。该模型采用联合嵌入预测架构(JEPA)进行训练,并结合了新颖的增强方案和损失函数,以提高可解释性和训练稳定性。该700万参数的模型在各种下游任务中实现了最先进的性能,为时间序列表征学习树立了新的基准。

🔬 方法详解

问题定义:现有的时间序列模型通常是任务特定的,需要大量的数据集特定训练和特征工程。虽然基于Transformer的架构提高了可扩展性,但时间序列的基础模型仍然欠发达,并且主要局限于预测任务。因此,如何构建一个通用的、可迁移的时间序列表征学习模型是一个关键问题。

核心思路:CHARM的核心思路是利用联合嵌入预测架构(JEPA)学习时间序列的表征,同时结合通道级别的文本描述,从而使模型能够理解不同通道的含义,并学习到更丰富的表征。此外,模型设计保证了对通道顺序的不变性,增强了模型的鲁棒性。

技术框架:CHARM的整体框架包括以下几个主要模块:1) 输入时间序列数据和通道描述;2) 使用编码器将时间序列数据和通道描述分别编码成嵌入向量;3) 使用JEPA架构进行训练,其中一个分支预测另一个分支的嵌入向量;4) 使用训练好的编码器提取时间序列的表征。

关键创新:CHARM的关键创新在于:1) 结合了通道级别的文本描述,使模型能够理解不同通道的含义;2) 采用了联合嵌入预测架构(JEPA)进行训练,提高了模型的表征能力;3) 设计了新颖的增强方案和损失函数,提高了训练的稳定性和可解释性。

关键设计:CHARM的关键设计包括:1) 使用Transformer作为编码器;2) 设计了通道描述的嵌入方式;3) 采用了对比学习的损失函数,鼓励模型学习到相似时间序列的相似表征;4) 设计了数据增强策略,例如通道置换和时间扭曲。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CHARM在多个时间序列数据集上进行了评估,并在各种下游任务中取得了最先进的性能。例如,在某些数据集上,CHARM的性能超过了现有方法10%以上。实验结果表明,CHARM能够有效地学习时间序列的表征,并具有良好的泛化能力。

🎯 应用场景

CHARM作为一种通用的时间序列表征学习模型,可以广泛应用于各种领域,例如医疗健康(疾病诊断、生理信号分析)、金融(股票预测、风险管理)、工业(设备故障预测、生产优化)等。通过学习高质量的时间序列表征,CHARM可以显著提升下游任务的性能,并为时间序列分析提供新的思路。

📄 摘要(原文)

Traditional time series models are task-specific and often depend on dataset-specific training and extensive feature engineering. While Transformer-based architectures have improved scalability, foundation models, commonplace in text, vision, and audio, remain under-explored for time series and are largely restricted to forecasting. We introduce $\textbf{CHARM}$, a foundation embedding model for multivariate time series that learns shared, transferable, and domain-aware representations. To address the unique difficulties of time series foundation learning, $\textbf{CHARM}$ incorporates architectural innovations that integrate channel-level textual descriptions while remaining invariant to channel order. The model is trained using a Joint Embedding Predictive Architecture (JEPA), with novel augmentation schemes and a loss function designed to improve interpretability and training stability. Our $7$M-parameter model achieves state-of-the-art performance across diverse downstream tasks, setting a new benchmark for time series representation learning.