Mantis: Lightweight Calibrated Foundation Model for User-Friendly Time Series Classification

📄 arXiv: 2502.15637v1 📥 PDF

作者: Vasilii Feofanov, Songkang Wen, Marius Alonso, Romain Ilbert, Hongbo Guo, Malik Tiomoko, Lujia Pan, Jianfeng Zhang, Ievgen Redko

分类: cs.LG, cs.AI, stat.ML

发布日期: 2025-02-21


💡 一句话要点

Mantis:轻量级校准时间序列分类基础模型,提升用户友好性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 时间序列分类 基础模型 Vision Transformer 对比学习 预训练 多元时间序列 校准误差

📋 核心要点

  1. 现有时间序列基础模型主要集中于预测任务,缺乏专门为分类任务设计的模型。
  2. Mantis 提出了一种基于 ViT 架构并使用对比学习预训练的时间序列分类基础模型。
  3. 实验表明,Mantis 在分类性能和校准误差方面均优于现有模型,并提出了多元时间序列适配器。

📝 摘要(中文)

近年来,开发能够泛化到各种下游任务的时间序列数据基础模型的需求日益增长。虽然已经涌现出许多面向预测的基础模型,但专门为时间序列分类量身定制的模型仍然非常稀缺。为了弥补这一差距,我们提出了 Mantis,这是一个新的开源时间序列分类基础模型,它基于 Vision Transformer (ViT) 架构,并使用对比学习方法进行预训练。实验结果表明,无论骨干网络是冻结还是微调,Mantis 都优于现有的基础模型,同时实现了最低的校准误差。此外,我们还提出了几种适配器来处理多元时间序列,从而减少内存需求并对通道间的相互依赖性进行建模。

🔬 方法详解

问题定义:论文旨在解决时间序列分类任务中缺乏有效的基础模型的问题。现有方法,尤其是面向预测的基础模型,在直接应用于分类任务时表现不佳,并且难以处理多元时间序列数据,同时可能存在校准误差较高的问题。

核心思路:论文的核心思路是利用 Vision Transformer (ViT) 架构的强大特征提取能力,并结合对比学习的预训练方法,学习到具有良好泛化能力的时间序列表示。通过对比学习,模型能够区分不同的时间序列类别,从而提高分类性能。

技术框架:Mantis 的整体框架包括三个主要阶段:1) 使用对比学习进行预训练:ViT 模型在大量无标签时间序列数据上进行预训练,学习时间序列的通用表示。2) 适配器设计:针对多元时间序列,设计了多种适配器,用于降低内存需求并建模通道间的依赖关系。3) 微调:在特定下游分类任务上对预训练模型进行微调,以适应特定任务的需求。

关键创新:Mantis 的关键创新在于:1) 提出了一个专门为时间序列分类设计的 ViT 基础模型。2) 通过对比学习进行预训练,提高了模型的泛化能力。3) 提出了多种适配器来处理多元时间序列,降低了内存需求并建模了通道间的依赖关系。4) 实现了更低的校准误差,提高了分类结果的可信度。

关键设计:Mantis 使用 ViT 作为骨干网络,将时间序列数据转换为图像形式,然后输入到 ViT 中进行特征提取。对比学习的损失函数采用 InfoNCE 损失,鼓励模型学习到区分不同类别时间序列的表示。适配器包括线性层、卷积层等,用于降低多元时间序列的维度并建模通道间的相关性。微调阶段使用交叉熵损失函数,并采用 AdamW 优化器。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Mantis 在多个时间序列分类数据集上取得了优于现有基础模型的性能。具体来说,在骨干网络冻结的情况下,Mantis 仍然能够取得具有竞争力的结果,表明其预训练的表示具有良好的泛化能力。在微调后,Mantis 的性能进一步提升,并且实现了最低的校准误差,表明其分类结果更加可靠。此外,Mantis 的多元时间序列适配器有效降低了内存需求,使其能够处理更大规模的数据。

🎯 应用场景

Mantis 可应用于各种时间序列分类场景,例如医疗诊断(心电图分类、脑电图分类)、工业监控(设备故障检测)、金融分析(股票价格预测)等。该模型具有良好的泛化能力和用户友好性,可以降低时间序列分类任务的开发成本,并提高分类精度,从而为相关领域的决策提供更可靠的依据。未来,Mantis 可以进一步扩展到其他时间序列任务,例如异常检测、时间序列聚类等。

📄 摘要(原文)

In recent years, there has been increasing interest in developing foundation models for time series data that can generalize across diverse downstream tasks. While numerous forecasting-oriented foundation models have been introduced, there is a notable scarcity of models tailored for time series classification. To address this gap, we present Mantis, a new open-source foundation model for time series classification based on the Vision Transformer (ViT) architecture that has been pre-trained using a contrastive learning approach. Our experimental results show that Mantis outperforms existing foundation models both when the backbone is frozen and when fine-tuned, while achieving the lowest calibration error. In addition, we propose several adapters to handle the multivariate setting, reducing memory requirements and modeling channel interdependence.