Estimating Time Series Foundation Model Transferability via In-Context Learning

📄 arXiv: 2509.23695v1 📥 PDF

作者: Qingren Yao, Ming Jin, Chengqi Zhang, Chao-Han Huck Yang, Jun Qi, Shirui Pan

分类: cs.LG, cs.AI

发布日期: 2025-09-28


💡 一句话要点

TimeTic:基于上下文学习的时间序列预训练模型迁移性评估框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 时间序列预测 预训练模型 迁移学习 上下文学习 模型选择

📋 核心要点

  1. 现有时间序列预训练模型选择缺乏有效方法,难以确定哪个模型最适合下游任务的微调。
  2. TimeTic将模型选择视为上下文学习问题,通过已知数据预测模型在目标数据集上的微调性能。
  3. 实验表明,TimeTic的迁移性评估与实际微调性能高度一致,显著优于零样本性能评估。

📝 摘要(中文)

时间序列预训练模型(TSFMs)通过大规模预训练展现了强大的零样本预测能力,但微调对于提升在公共数据有限领域中的性能仍然至关重要。随着TSFM数量的增长,高效地识别最适合下游微调的模型变得越来越具有挑战性。本文提出了TimeTic,一个迁移性评估框架,它将模型选择重新定义为一个上下文学习问题:给定已知(源)数据集上的观测结果,预测TSFM在下游(目标)数据集上微调后的性能。TimeTic灵活地将观察到的模型-数据关系组织为上下文信息,使其能够无缝地适应各种测试时场景。利用数据集元特征、模型特征和微调性能形成的自然表格结构,我们采用表格预训练模型作为上下文学习器。我们进一步引入了一种基于模型层间熵演化的新型模型表征方法,捕捉嵌入空间差异,使TimeTic能够推广到任意模型集。我们建立了一个全面的迁移性评估基准,包括10个数据集、10个预训练模型和3个预测任务。在这个基准上,TimeTic的评估结果与先前未见数据集的实际微调性能表现出很强的一致性,平均秩相关系数约为0.6,并且比使用零样本性能作为迁移性评分提高了30%。

🔬 方法详解

问题定义:论文旨在解决时间序列预训练模型(TSFMs)选择的问题。随着越来越多的TSFMs出现,如何高效地选择最适合特定下游任务微调的模型变得越来越困难。现有方法主要依赖于零样本性能,但这种方法往往不能准确反映模型微调后的真实性能。

核心思路:论文的核心思路是将模型选择问题转化为一个上下文学习问题。通过观察模型在已知数据集上的表现,TimeTic学习模型-数据之间的关系,并利用这些关系来预测模型在新的、未见过的数据集上的微调性能。这种方法避免了直接在目标数据集上进行昂贵的微调实验,从而提高了模型选择的效率。

技术框架:TimeTic框架主要包含以下几个模块:1) 数据集元特征提取模块,用于提取数据集的统计信息和特征;2) 模型特征提取模块,用于提取模型的特征,包括模型结构和参数信息;3) 上下文学习模块,使用表格预训练模型作为上下文学习器,学习模型-数据之间的关系;4) 迁移性评估模块,根据学习到的关系,预测模型在目标数据集上的微调性能。整体流程是,首先提取源数据集和目标数据集的元特征,以及候选TSFMs的特征。然后,利用表格预训练模型,基于源数据集上的模型表现,预测TSFMs在目标数据集上微调后的性能。

关键创新:论文的关键创新在于:1) 将模型选择问题转化为上下文学习问题,利用已知数据预测模型在未知数据集上的微调性能;2) 提出了一种基于模型层间熵演化的新型模型表征方法,能够捕捉嵌入空间差异,从而更好地泛化到不同的模型集;3) 构建了一个全面的迁移性评估基准,包括多个数据集、预训练模型和预测任务。

关键设计:TimeTic的关键设计包括:1) 使用表格预训练模型作为上下文学习器,利用数据集元特征、模型特征和微调性能形成的自然表格结构;2) 采用基于熵演化的模型表征方法,计算模型各层输出的熵,并分析熵的变化趋势,以捕捉模型在不同层级的特征表示能力;3) 设计了合适的损失函数,用于训练上下文学习器,使其能够准确预测模型在目标数据集上的微调性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TimeTic在包含10个数据集、10个预训练模型和3个预测任务的综合基准测试中表现出色。实验结果表明,TimeTic的迁移性评估与实际微调性能高度一致,平均秩相关系数约为0.6,并且比使用零样本性能作为迁移性评分提高了30%。这表明TimeTic能够有效地预测模型在未见数据集上的微调性能。

🎯 应用场景

TimeTic可应用于各种时间序列预测场景,例如金融市场预测、能源消耗预测、交通流量预测等。通过高效地选择最适合特定任务的预训练模型,可以显著降低模型微调的成本,并提高预测精度。该研究有助于推动时间序列预训练模型在实际应用中的普及,并加速相关领域的发展。

📄 摘要(原文)

Time series foundation models (TSFMs) offer strong zero-shot forecasting via large-scale pre-training, yet fine-tuning remains critical for boosting performance in domains with limited public data. With the growing number of TSFMs, efficiently identifying the best model for downstream fine-tuning becomes increasingly challenging. In this work, we introduce TimeTic, a transferability estimation framework that recasts model selection as an in-context-learning problem: given observations on known (source) datasets, it predicts how a TSFM will perform after fine-tuning on a downstream (target) dataset. TimeTic flexibly organizes the observed model-data relationships as contextual information, allowing it to adapt seamlessly to various test-time scenarios. Leveraging the natural tabular structure formed by dataset meta-features, model characteristics, and fine-tuned performance, we employ tabular foundation models to serve as in-context learners. We further introduce a novel model characterization based on entropy evolution across model layers, capturing embedding-space distinctions and enabling TimeTic to generalize across arbitrary model sets. We establish a comprehensive benchmark for transferability estimation including 10 datasets, 10 foundation models, and 3 forecasting tasks. On this benchmark, TimeTic's estimation demonstrates strong alignment with actual fine-tuned performance for previously unseen datasets, achieving a mean rank correlation of approximately 0.6 and a 30% improvement compared to using zero-shot performance as the transferability score.