Deciphering Invariant Feature Decoupling in Source-free Time Series Forecasting with Proxy Denoising

📄 arXiv: 2510.05589v2 📥 PDF

作者: Kangjia Yan, Chenxi Liu, Hao Miao, Xinle Wu, Yan Zhao, Chenjuan Guo, Bin Yang

分类: cs.LG, cs.AI

发布日期: 2025-10-07 (更新: 2025-10-31)


💡 一句话要点

提出TimePD,通过代理去噪解决无源时间序列预测中的不变特征解耦问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 时间序列预测 无源领域自适应 大型语言模型 代理去噪 知识蒸馏

📋 核心要点

  1. 现有时间序列预测方法在无源领域自适应场景下,面临无法访问源数据和目标数据稀疏性的挑战。
  2. TimePD通过双分支不变解耦特征学习、代理去噪和知识蒸馏,实现从源域到目标域的知识迁移和模型自适应。
  3. 实验结果表明,TimePD在多个真实数据集上显著优于现有最先进的基线方法,平均提升9.3%。

📝 摘要(中文)

本研究关注时间序列预测的无源领域自适应问题,旨在将预训练模型从充足的源时间序列数据迁移到稀疏的目标时间序列数据,且无需访问源数据,以符合数据保护法规。为此,我们提出了TimePD,这是第一个采用代理去噪的无源时间序列预测框架,利用大型语言模型(LLM)的泛化能力。TimePD包含三个关键组件:(1)双分支不变解耦特征学习,通过季节-趋势分解强制表示和梯度不变性;(2)轻量级、无参数的代理去噪,动态校准LLM的系统偏差;(3)知识蒸馏,双向对齐去噪后的预测和原始目标预测。在真实数据集上的大量实验表明,TimePD的有效性,平均优于SOTA基线9.3%。

🔬 方法详解

问题定义:论文旨在解决无源时间序列预测问题。具体而言,目标是在无法访问源数据的情况下,利用在源域上预训练的模型,对目标域的稀疏时间序列数据进行准确预测。现有方法的痛点在于无法直接应用领域自适应技术,因为源数据不可用,且目标数据稀疏,容易过拟合。

核心思路:论文的核心思路是利用大型语言模型(LLM)的泛化能力,并通过代理去噪来校准LLM的偏差。通过解耦时间序列的季节性和趋势性成分,学习不变特征表示,从而提高模型在不同领域之间的泛化能力。同时,使用知识蒸馏技术,将去噪后的预测结果与原始目标预测结果对齐,进一步提升预测精度。

技术框架:TimePD框架包含三个主要模块:(1)双分支不变解耦特征学习模块,用于提取时间序列的季节性和趋势性特征,并学习不变特征表示;(2)轻量级代理去噪模块,用于校准LLM的系统偏差,提高预测的准确性;(3)知识蒸馏模块,用于双向对齐去噪后的预测和原始目标预测,进一步提升模型性能。整个流程是先进行特征提取和解耦,然后利用LLM进行预测,再通过代理去噪和知识蒸馏进行优化。

关键创新:TimePD的关键创新在于:(1)提出了双分支不变解耦特征学习方法,通过季节-趋势分解,学习领域不变的特征表示;(2)设计了轻量级、无参数的代理去噪模块,能够动态校准LLM的系统偏差,而无需额外的训练数据;(3)采用了知识蒸馏技术,将去噪后的预测结果与原始目标预测结果对齐,进一步提升了预测精度。与现有方法的本质区别在于,TimePD无需访问源数据,并且能够有效地利用LLM的泛化能力。

关键设计:在双分支不变解耦特征学习中,采用了季节-趋势分解方法,将时间序列分解为季节性和趋势性成分。在代理去噪模块中,设计了一种轻量级的、无参数的校准方法,通过动态调整LLM的预测结果,来消除系统偏差。在知识蒸馏模块中,采用了双向对齐策略,同时考虑了去噪后的预测结果和原始目标预测结果,以提高模型的整体性能。损失函数包括表示不变性损失、梯度不变性损失和知识蒸馏损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TimePD在多个真实世界数据集上进行了广泛的实验,结果表明其性能显著优于现有的最先进基线方法。具体而言,TimePD在平均情况下比SOTA基线提高了9.3%。实验结果验证了TimePD在无源时间序列预测中的有效性,以及代理去噪和知识蒸馏等关键技术的贡献。

🎯 应用场景

TimePD可应用于各种时间序列预测场景,尤其适用于数据隐私保护要求高的领域,如金融、医疗和物联网等。例如,在金融领域,可以利用TimePD对股票价格进行预测,而无需访问其他机构的交易数据。在医疗领域,可以利用TimePD对患者的生理指标进行预测,而无需共享患者的个人信息。该研究的实际价值在于提高了时间序列预测的可用性和安全性,未来可能推动更多基于时间序列数据的智能应用。

📄 摘要(原文)

The proliferation of mobile devices generates a massive volume of time series across various domains, where effective time series forecasting enables a variety of real-world applications. This study focuses on a new problem of source-free domain adaptation for time series forecasting. It aims to adapt a pretrained model from sufficient source time series to the sparse target time series domain without access to the source data, embracing data protection regulations. To achieve this, we propose TimePD, the first source-free time series forecasting framework with proxy denoising, where large language models (LLMs) are employed to benefit from their generalization capabilities. Specifically, TimePD consists of three key components: (1) dual-branch invariant disentangled feature learning that enforces representation- and gradient-wise invariance by means of season-trend decomposition; (2) lightweight, parameter-free proxy denoising that dynamically calibrates systematic biases of LLMs; and (3) knowledge distillation that bidirectionally aligns the denoised prediction and the original target prediction. Extensive experiments on real-world datasets offer insight into the effectiveness of the proposed TimePD, outperforming SOTA baselines by 9.3% on average.