TimeDistill: Efficient Long-Term Time Series Forecasting with MLP via Cross-Architecture Distillation

📄 arXiv: 2502.15016v3 📥 PDF

作者: Juntong Ni, Zewen Liu, Shiyu Wang, Ming Jin, Wei Jin

分类: cs.LG

发布日期: 2025-02-20 (更新: 2026-01-07)

备注: Accepted at KDD 2026, we release our code publicly at https://github.com/LingFengGold/TimeDistill


💡 一句话要点

TimeDistill:通过跨架构蒸馏,利用MLP实现高效长期时间序列预测

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 时间序列预测 知识蒸馏 多层感知机 跨架构学习 模型压缩

📋 核心要点

  1. Transformer和CNN在长期时间序列预测中表现出色,但计算和存储成本高昂,限制了大规模部署。
  2. TimeDistill通过知识蒸馏,将Transformer和CNN等教师模型的知识迁移到轻量级MLP,实现性能与效率的平衡。
  3. 实验表明,TimeDistill显著提升了MLP的预测精度,在多个数据集上超越了教师模型,并大幅降低了计算成本。

📝 摘要(中文)

本文提出TimeDistill,一个利用知识蒸馏(KD)将先进架构(如Transformer、CNN)的知识迁移到轻量级MLP的框架,以解决长期时间序列预测中Transformer和CNN模型计算和存储需求高的问题。初步研究表明,不同模型可以捕获互补的模式,特别是时域和频域中的多尺度和多周期模式。TimeDistill通过跨架构KD将这些模式从教师模型传递到MLP。理论分析表明,该KD方法可以解释为一种特殊的mixup数据增强。在八个数据集上,TimeDistill将MLP的性能提高了高达18.6%,超过了教师模型,并实现了高达7倍的推理速度提升和130倍的参数减少。实验结果突出了TimeDistill的通用性和有效性。

🔬 方法详解

问题定义:长期时间序列预测任务需要处理大量数据,Transformer和CNN等模型虽然精度高,但计算复杂度和参数量巨大,难以部署在资源受限的场景中。现有方法难以在预测精度和计算效率之间取得平衡。

核心思路:利用知识蒸馏(Knowledge Distillation, KD),将复杂模型(教师模型)学习到的知识迁移到轻量级模型(学生模型)上。具体而言,将Transformer或CNN等擅长捕捉时间序列多尺度和多周期模式的模型作为教师,MLP作为学生,让MLP学习教师模型的输出分布,从而提升MLP的预测能力,同时保持其计算效率。

技术框架:TimeDistill框架包含教师模型和学生模型。教师模型可以是Transformer或CNN等复杂模型,学生模型是MLP。训练时,首先训练好教师模型,然后利用教师模型的输出作为软标签,指导学生模型进行训练。框架的核心在于设计合适的蒸馏损失函数,使得学生模型能够有效地学习到教师模型的知识。

关键创新:TimeDistill的关键创新在于跨架构的知识蒸馏,即教师模型和学生模型采用不同的网络结构。论文发现,不同的模型结构擅长捕捉时间序列的不同特征,例如Transformer擅长捕捉长程依赖,CNN擅长捕捉局部模式。通过跨架构蒸馏,可以将不同模型的优势结合起来,提升学生模型的性能。此外,论文还从理论上证明了该KD方法可以解释为一种特殊的mixup数据增强。

关键设计:TimeDistill的关键设计包括:1) 选择合适的教师模型,例如Transformer或CNN;2) 设计合适的蒸馏损失函数,例如KL散度或MSE损失;3) 调整教师模型和学生模型的输出尺度,使得它们能够匹配;4) 探索不同的训练策略,例如先训练教师模型,再训练学生模型,或者同时训练教师模型和学生模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TimeDistill在八个数据集上进行了评估,结果表明,TimeDistill可以将MLP的性能提高高达18.6%,超过了教师模型。同时,TimeDistill实现了高达7倍的推理速度提升和130倍的参数减少。例如,在某个数据集上,TimeDistill将MLP的MSE降低了15%,同时将推理时间缩短了6倍。

🎯 应用场景

TimeDistill适用于各种需要长期时间序列预测的场景,例如金融市场预测、能源需求预测、交通流量预测、供应链管理等。该方法可以降低模型部署的成本,提高预测效率,尤其适用于资源受限的边缘设备或移动设备。未来,TimeDistill可以扩展到其他类型的数据和任务,例如图像识别、自然语言处理等。

📄 摘要(原文)

Transformer-based and CNN-based methods demonstrate strong performance in long-term time series forecasting. However, their high computational and storage requirements can hinder large-scale deployment. To address this limitation, we propose integrating lightweight MLP with advanced architectures using knowledge distillation (KD). Our preliminary study reveals different models can capture complementary patterns, particularly multi-scale and multi-period patterns in the temporal and frequency domains. Based on this observation, we introduce TimeDistill, a cross-architecture KD framework that transfers these patterns from teacher models (e.g., Transformers, CNNs) to MLP. Additionally, we provide a theoretical analysis, demonstrating that our KD approach can be interpreted as a specialized form of mixup data augmentation. TimeDistill improves MLP performance by up to 18.6%, surpassing teacher models on eight datasets. It also achieves up to 7X faster inference and requires 130X fewer parameters. Furthermore, we conduct extensive evaluations to highlight the versatility and effectiveness of TimeDistill.