On the Regularization of Learnable Embeddings for Time Series Forecasting
作者: Luca Butera, Giovanni De Felice, Andrea Cini, Cesare Alippi
分类: cs.LG, cs.AI
发布日期: 2024-10-18 (更新: 2025-02-13)
备注: Accepted at TMLR
期刊: L. Butera, G. D. Felice, A. Cini, and C. Alippi. On the regularization of learnable embeddings for time series forecasting. Transactions on Machine Learning Research, 2025. ISSN 2835-8856. URL https://openreview.net/forum?id=F5ALCh3GWG
💡 一句话要点
针对时间序列预测,提出正则化可学习嵌入的方法,提升模型泛化能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 时间序列预测 可学习嵌入 正则化 泛化能力 深度学习 嵌入扰动 模型训练
📋 核心要点
- 现有时间序列预测模型中的可学习嵌入可能退化为序列标识符,限制了模型的泛化能力。
- 论文提出通过正则化可学习嵌入的方式,防止局部嵌入与全局模型过度拟合,提升模型泛化性。
- 实验结果表明,所提出的正则化方法能够持续提高现有时间序列预测架构的性能。
📝 摘要(中文)
在预测多个时间序列时,如何有效利用每个序列的独特特征是一个挑战。为了解决这个问题,现代深度学习时间序列分析方法通常将共享(全局)模型与特定于每个时间序列的局部层结合,这些局部层通常实现为可学习的嵌入。理想情况下,这些局部嵌入应该编码每个序列独特动态的有意义的表示。然而,当这些嵌入作为预测模型的参数进行端到端学习时,它们可能最终仅仅充当序列标识符。共享处理模块可能会过度依赖这些标识符,从而限制了它们在新环境中的可迁移性。本文通过研究正则化时间序列处理的可学习局部嵌入的方法来解决这个问题。具体来说,我们对该主题进行了首次广泛的实证研究,并表明这种正则化能够持续提高广泛采用的架构的性能。此外,我们表明,通过嵌入扰动来防止局部和全局参数协同适应的方法在这种情况下特别有效。在这方面,我们将几种基于扰动的正则化方法纳入比较,甚至包括在训练期间定期重置嵌入。获得的结果为理解可学习的局部参数和共享处理层之间的相互作用提供了重要的贡献:这是现代时间序列处理模型中的一个关键挑战,也是开发有效的时间序列基础模型的一步。
🔬 方法详解
问题定义:在多时间序列预测中,如何有效地利用每个时间序列的独有特征是一个关键问题。现有的深度学习方法通常采用可学习的嵌入来表示每个时间序列的局部特征,但这些嵌入容易退化为简单的序列标识符,导致共享的全局模型过度依赖这些标识符,从而降低了模型在新环境下的泛化能力。
核心思路:论文的核心思路是通过正则化可学习的局部嵌入,防止其过度拟合特定序列的标识信息,从而提高模型的泛化能力。通过约束局部嵌入的学习,鼓励其捕捉时间序列的内在动态,而不是仅仅作为序列的唯一ID。
技术框架:论文主要研究了在现有时间序列预测架构中,如何通过正则化局部可学习嵌入来提升性能。具体来说,是在共享的全局模型基础上,为每个时间序列引入一个可学习的嵌入向量。该嵌入向量与时间序列数据一起输入到模型中进行训练。论文重点关注如何正则化这些嵌入向量的学习过程。
关键创新:论文的关键创新在于对时间序列预测模型中的局部可学习嵌入进行正则化,并首次对该主题进行了广泛的实证研究。特别地,论文发现通过嵌入扰动来防止局部和全局参数协同适应的方法非常有效。此外,论文还尝试了在训练期间定期重置嵌入的方法。
关键设计:论文比较了多种正则化方法,包括但不限于:L1/L2正则化、dropout、以及基于扰动的正则化方法。其中,基于扰动的正则化方法通过在训练过程中对嵌入向量添加噪声或进行随机变换,来防止模型过度依赖这些嵌入向量。论文还探索了定期重置嵌入向量的方法,以进一步提高模型的泛化能力。具体的参数设置和损失函数根据不同的正则化方法而有所不同,但核心目标都是约束局部嵌入的学习,防止其退化为序列标识符。
🖼️ 关键图片
📊 实验亮点
论文通过广泛的实验验证了正则化可学习嵌入的有效性。实验结果表明,所提出的正则化方法能够持续提高现有时间序列预测架构的性能。特别地,基于嵌入扰动的正则化方法表现出优异的性能,并且定期重置嵌入也能带来显著的提升。这些结果表明,防止局部和全局参数协同适应是提高时间序列预测模型泛化能力的关键。
🎯 应用场景
该研究成果可应用于各种需要进行多时间序列预测的领域,例如金融市场的股票价格预测、能源消耗预测、交通流量预测、以及工业生产过程中的设备状态预测等。通过提高时间序列预测模型的泛化能力,可以更准确地预测未来趋势,从而为决策提供更可靠的依据。
📄 摘要(原文)
In forecasting multiple time series, accounting for the individual features of each sequence can be challenging. To address this, modern deep learning methods for time series analysis combine a shared (global) model with local layers, specific to each time series, often implemented as learnable embeddings. Ideally, these local embeddings should encode meaningful representations of the unique dynamics of each sequence. However, when these are learned end-to-end as parameters of a forecasting model, they may end up acting as mere sequence identifiers. Shared processing blocks may then become reliant on such identifiers, limiting their transferability to new contexts. In this paper, we address this issue by investigating methods to regularize the learning of local learnable embeddings for time series processing. Specifically, we perform the first extensive empirical study on the subject and show how such regularizations consistently improve performance in widely adopted architectures. Furthermore, we show that methods attempting to prevent the co-adaptation of local and global parameters by means of embeddings perturbation are particularly effective in this context. In this regard, we include in the comparison several perturbation-based regularization methods, going as far as periodically resetting the embeddings during training. The obtained results provide an important contribution to understanding the interplay between learnable local parameters and shared processing layers: a key challenge in modern time series processing models and a step toward developing effective foundation models for time series.