DAM: Towards A Foundation Model for Time Series Forecasting
作者: Luke Darlow, Qiwen Deng, Ahmed Hassan, Martin Asenov, Rajkarn Singh, Artjom Joosen, Adam Barker, Amos Storkey
分类: cs.LG
发布日期: 2024-07-25
💡 一句话要点
DAM:面向时间序列预测的通用基础模型,解决多领域、非固定预测问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 时间序列预测 基础模型 Transformer 零样本迁移 长期预测
📋 核心要点
- 现有时间序列预测模型难以泛化到不同领域和数据集,因为它们通常假设规则采样和固定预测范围。
- DAM模型通过随机采样历史数据和输出连续时间函数的基系数,实现了对非固定范围的预测。
- 实验表明,DAM在多个数据集上优于或接近现有SOTA模型,尤其擅长零样本迁移和超长期预测。
📝 摘要(中文)
扩展时间序列预测模型以使其能够准确地预测多个不同的领域和数据集是具有挑战性的,因为这些领域和数据集可能具有不同的底层收集程序(例如,采样分辨率)、模式(例如,周期性)和预测要求(例如,重建与预测)。我们将此通用任务称为通用预测。现有的方法通常假设输入数据是规则采样的,并且它们预测到预定的范围,导致无法推广到其训练范围之外。我们提出了DAM——一种神经模型,它接受随机采样的历史数据,并输出一个可调整的基组合,作为时间的连续函数,用于预测到非固定范围。它涉及三个关键组件:(1)一种灵活的方法,用于使用来自长尾分布的随机采样的历史数据,这使得能够有效地全局视角观察底层的时间动态,同时保持对最近历史的关注;(2)一个Transformer骨干网络,它在这些主动采样的历史数据上进行训练,以产生(3)作为表征输出的时间连续函数的基系数。我们表明,在25个时间序列数据集上训练的单个单变量DAM,在18个数据集上的多变量长期预测中,要么优于现有的SoTA模型,要么与其非常接近,包括8个用于零样本迁移的保留数据集,即使这些模型经过专门训练以适应每个数据集-范围组合。这种单一的DAM擅长零样本迁移和超长期预测,在插补方面表现良好,可以通过基函数组合和注意力进行解释,可以针对不同的推理成本要求进行调整,并且在设计上对缺失和不规则采样的数据具有鲁棒性。
🔬 方法详解
问题定义:现有时间序列预测方法通常依赖于规则采样的数据,并且预测范围固定,这限制了它们在不同领域和数据集上的泛化能力。实际应用中,数据可能是不规则采样的,预测需求也可能随时间变化,因此需要一种更灵活的预测模型。
核心思路:DAM的核心思路是利用随机采样历史数据,并将其转换为连续时间函数的基系数。通过这种方式,模型可以处理不规则采样的数据,并预测到任意时间范围。此外,使用Transformer架构可以有效地捕捉时间序列中的长期依赖关系。
技术框架:DAM模型包含三个主要模块:1) 随机采样模块:从长尾分布中随机采样历史数据,以兼顾全局视角和局部细节。2) Transformer编码器:对采样后的历史数据进行编码,生成表征向量。3) 基系数生成器:将表征向量转换为连续时间函数的基系数。整个模型通过端到端的方式进行训练,目标是最小化预测误差。
关键创新:DAM的关键创新在于其能够将时间序列预测问题转化为连续函数逼近问题。通过学习一组基函数,模型可以灵活地预测任意时间点的值,而无需事先确定预测范围。此外,随机采样策略使得模型能够有效地处理不规则采样的数据。
关键设计:DAM使用Transformer作为其核心编码器,利用其强大的序列建模能力。损失函数通常采用均方误差(MSE)或其变体,以衡量预测值与真实值之间的差异。基函数的选择可以根据具体应用进行调整,例如可以使用傅里叶基或小波基。
🖼️ 关键图片
📊 实验亮点
DAM在25个时间序列数据集上训练后,在18个数据集上的多变量长期预测中,性能超越或接近现有SOTA模型。在8个零样本迁移数据集上,DAM表现出强大的泛化能力,无需针对特定数据集进行微调。此外,DAM在超长期预测和数据插补方面也表现出色,证明了其通用性和灵活性。
🎯 应用场景
DAM模型具有广泛的应用前景,例如金融市场的股票价格预测、能源领域的电力负荷预测、医疗领域的疾病发展趋势预测等。其对不规则采样数据的鲁棒性和零样本迁移能力,使其能够应用于数据稀疏或缺乏标注的场景。未来,DAM可以与其他技术结合,例如强化学习,以实现更智能的时间序列预测。
📄 摘要(原文)
It is challenging to scale time series forecasting models such that they forecast accurately for multiple distinct domains and datasets, all with potentially different underlying collection procedures (e.g., sample resolution), patterns (e.g., periodicity), and prediction requirements (e.g., reconstruction vs. forecasting). We call this general task universal forecasting. Existing methods usually assume that input data is regularly sampled, and they forecast to pre-determined horizons, resulting in failure to generalise outside of the scope of their training. We propose the DAM - a neural model that takes randomly sampled histories and outputs an adjustable basis composition as a continuous function of time for forecasting to non-fixed horizons. It involves three key components: (1) a flexible approach for using randomly sampled histories from a long-tail distribution, that enables an efficient global perspective of the underlying temporal dynamics while retaining focus on the recent history; (2) a transformer backbone that is trained on these actively sampled histories to produce, as representational output, (3) the basis coefficients of a continuous function of time. We show that a single univariate DAM, trained on 25 time series datasets, either outperformed or closely matched existing SoTA models at multivariate long-term forecasting across 18 datasets, including 8 held-out for zero-shot transfer, even though these models were trained to specialise for each dataset-horizon combination. This single DAM excels at zero-shot transfer and very-long-term forecasting, performs well at imputation, is interpretable via basis function composition and attention, can be tuned for different inference-cost requirements, is robust to missing and irregularly sampled data {by design}.