Enhancing Foundation Models for Time Series Forecasting via Wavelet-based Tokenization
作者: Luca Masserano, Abdul Fatir Ansari, Boran Han, Xiyuan Zhang, Christos Faloutsos, Michael W. Mahoney, Andrew Gordon Wilson, Youngsuk Park, Syama Rangapuram, Danielle C. Maddix, Yuyang Wang
分类: cs.LG, cs.AI
发布日期: 2024-12-06
备注: 25 pages, 15 figures
💡 一句话要点
提出WaveToken,一种基于小波变换的时间序列预测基础模型,实现高效token化。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 时间序列预测 基础模型 小波变换 Token化 自回归模型
📋 核心要点
- 现有时间序列预测基础模型缺乏有效的token化方法,难以捕捉时间序列的复杂频率特征。
- WaveToken利用小波变换将时间序列分解到时频域,通过量化小波系数实现高效的token化表示。
- 实验表明,WaveToken在多个数据集上优于现有基础模型,并展现出更强的泛化能力和对复杂时间模式的捕捉能力。
📝 摘要(中文)
本文针对时间序列预测的基础模型开发,探讨了有效的token化方法。提出WaveToken,一种基于小波变换的token化器,使模型能够直接在时域局部频率空间中学习复杂的表示。该方法首先对输入时间序列进行尺度变换和分解,然后对小波系数进行阈值处理和量化,最后预训练一个自回归模型来预测预测范围内的系数。通过分解输入中的粗略和精细结构,小波变换为时间序列预测提供了一种简洁而紧凑的语言,从而简化了学习过程。在包含42个数据集的综合基准测试中,WaveToken在领域内和零样本设置下均表现出优异的性能,精度优于最近提出的预测基础模型,同时使用更小的词汇表(1024个token),并且性能与专门针对每个数据集训练的现代深度学习模型相当或更好。此外,WaveToken展现出卓越的泛化能力,在所有数据集上的三个互补指标中均取得了最佳平均排名。该方法还能轻松捕获其他预训练模型难以处理的复杂时间模式,包括趋势、稀疏尖峰和随时间演变的具有不同频率的非平稳时间序列。
🔬 方法详解
问题定义:时间序列预测任务旨在根据历史数据预测未来的时间序列值。现有的时间序列预测方法,特别是基于深度学习的方法,通常需要大量的训练数据和针对特定数据集的调优,泛化能力有限。最近提出的时间序列基础模型尝试通过预训练的方式解决这个问题,但如何有效地将连续的时间序列数据转换为离散的token表示仍然是一个挑战,现有的token化方法可能无法充分捕捉时间序列的复杂频率特征。
核心思路:WaveToken的核心思路是利用小波变换将时间序列分解到时频域,从而将时间序列的复杂模式转化为一系列小波系数。通过对这些系数进行量化,可以得到离散的token表示,从而实现高效的token化。这种方法能够同时捕捉时间序列的粗略和精细结构,简化学习过程。
技术框架:WaveToken的整体框架包括以下几个主要阶段:1) 小波分解:使用小波变换将输入时间序列分解成不同尺度的小波系数。2) 阈值处理:对小波系数进行阈值处理,去除噪声和不重要的信息。3) 量化:将阈值处理后的小波系数量化为离散的token。4) 自回归模型预训练:使用自回归模型(例如Transformer)在大量时间序列数据上预训练,学习预测未来小波系数的能力。在预测阶段,模型预测未来时间步的小波系数,然后通过逆小波变换重构出预测的时间序列。
关键创新:WaveToken的关键创新在于使用小波变换进行token化。与传统的token化方法(例如直接量化时间序列值)相比,小波变换能够将时间序列分解到时频域,从而更好地捕捉时间序列的复杂频率特征。此外,WaveToken通过阈值处理和量化,实现了高效的token表示,降低了模型的计算复杂度。
关键设计:WaveToken的关键设计包括:1) 小波基的选择:论文中使用了Daubechies小波基,该小波基具有良好的时频局部化特性。2) 阈值处理方法:使用了硬阈值处理方法,将绝对值小于阈值的小波系数设置为零。3) 量化方法:使用了均匀量化方法,将小波系数量化为1024个token。4) 自回归模型结构:使用了Transformer模型作为自回归模型,该模型具有强大的序列建模能力。损失函数为标准的交叉熵损失函数,用于训练模型预测下一个token。
🖼️ 关键图片
📊 实验亮点
WaveToken在包含42个数据集的综合基准测试中表现出色,精度优于最近提出的时间序列预测基础模型,同时使用更小的词汇表(1024个token)。在零样本设置下,WaveToken的性能与专门针对每个数据集训练的现代深度学习模型相当或更好。此外,WaveToken在所有数据集上的三个互补指标中均取得了最佳平均排名,展现出卓越的泛化能力。
🎯 应用场景
WaveToken可应用于各种时间序列预测场景,例如金融市场预测、能源需求预测、交通流量预测、供应链管理等。该方法能够提高预测精度和泛化能力,降低模型训练成本,并能有效处理包含复杂时间模式的时间序列数据。未来,WaveToken有望成为时间序列预测领域的基础模型,为各种应用提供强大的支持。
📄 摘要(原文)
How to best develop foundational models for time series forecasting remains an important open question. Tokenization is a crucial consideration in this effort: what is an effective discrete vocabulary for a real-valued sequential input? To address this question, we develop WaveToken, a wavelet-based tokenizer that allows models to learn complex representations directly in the space of time-localized frequencies. Our method first scales and decomposes the input time series, then thresholds and quantizes the wavelet coefficients, and finally pre-trains an autoregressive model to forecast coefficients for the forecast horizon. By decomposing coarse and fine structures in the inputs, wavelets provide an eloquent and compact language for time series forecasting that simplifies learning. Empirical results on a comprehensive benchmark, including 42 datasets for both in-domain and zero-shot settings, show that WaveToken: i) provides better accuracy than recently proposed foundation models for forecasting while using a much smaller vocabulary (1024 tokens), and performs on par or better than modern deep learning models trained specifically on each dataset; and ii) exhibits superior generalization capabilities, achieving the best average rank across all datasets for three complementary metrics. In addition, we show that our method can easily capture complex temporal patterns of practical relevance that are challenging for other recent pre-trained models, including trends, sparse spikes, and non-stationary time series with varying frequencies evolving over time.