Estimating Time Series Foundation Model Transferability via In-Context Learning

作者: Qingren Yao, Ming Jin, Chengqi Zhang, Chao-Han Huck Yang, Jun Qi, Shirui Pan

分类: cs.LG, cs.AI

发布日期: 2025-09-28

💡 一句话要点

TimeTic：基于上下文学习的时间序列预训练模型迁移性评估框架

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 时间序列预测 预训练模型 迁移学习 上下文学习 模型选择

📋 核心要点

现有时间序列预训练模型选择缺乏有效方法，难以确定哪个模型最适合下游任务的微调。
TimeTic将模型选择视为上下文学习问题，通过已知数据预测模型在目标数据集上的微调性能。
实验表明，TimeTic的迁移性评估与实际微调性能高度一致，显著优于零样本性能评估。

📝 摘要（中文）

时间序列预训练模型(TSFMs)通过大规模预训练展现了强大的零样本预测能力，但微调对于提升在公共数据有限领域中的性能仍然至关重要。随着TSFM数量的增长，高效地识别最适合下游微调的模型变得越来越具有挑战性。本文提出了TimeTic，一个迁移性评估框架，它将模型选择重新定义为一个上下文学习问题：给定已知（源）数据集上的观测结果，预测TSFM在下游（目标）数据集上微调后的性能。TimeTic灵活地将观察到的模型-数据关系组织为上下文信息，使其能够无缝地适应各种测试时场景。利用数据集元特征、模型特征和微调性能形成的自然表格结构，我们采用表格预训练模型作为上下文学习器。我们进一步引入了一种基于模型层间熵演化的新型模型表征方法，捕捉嵌入空间差异，使TimeTic能够推广到任意模型集。我们建立了一个全面的迁移性评估基准，包括10个数据集、10个预训练模型和3个预测任务。在这个基准上，TimeTic的评估结果与先前未见数据集的实际微调性能表现出很强的一致性，平均秩相关系数约为0.6，并且比使用零样本性能作为迁移性评分提高了30%。

🔬 方法详解

问题定义：论文旨在解决时间序列预训练模型（TSFMs）选择的问题。随着越来越多的TSFMs出现，如何高效地选择最适合特定下游任务微调的模型变得越来越困难。现有方法主要依赖于零样本性能，但这种方法往往不能准确反映模型微调后的真实性能。

核心思路：论文的核心思路是将模型选择问题转化为一个上下文学习问题。通过观察模型在已知数据集上的表现，TimeTic学习模型-数据之间的关系，并利用这些关系来预测模型在新的、未见过的数据集上的微调性能。这种方法避免了直接在目标数据集上进行昂贵的微调实验，从而提高了模型选择的效率。

技术框架：TimeTic框架主要包含以下几个模块：1) 数据集元特征提取模块，用于提取数据集的统计信息和特征；2) 模型特征提取模块，用于提取模型的特征，包括模型结构和参数信息；3) 上下文学习模块，使用表格预训练模型作为上下文学习器，学习模型-数据之间的关系；4) 迁移性评估模块，根据学习到的关系，预测模型在目标数据集上的微调性能。整体流程是，首先提取源数据集和目标数据集的元特征，以及候选TSFMs的特征。然后，利用表格预训练模型，基于源数据集上的模型表现，预测TSFMs在目标数据集上微调后的性能。

关键创新：论文的关键创新在于：1) 将模型选择问题转化为上下文学习问题，利用已知数据预测模型在未知数据集上的微调性能；2) 提出了一种基于模型层间熵演化的新型模型表征方法，能够捕捉嵌入空间差异，从而更好地泛化到不同的模型集；3) 构建了一个全面的迁移性评估基准，包括多个数据集、预训练模型和预测任务。

关键设计：TimeTic的关键设计包括：1) 使用表格预训练模型作为上下文学习器，利用数据集元特征、模型特征和微调性能形成的自然表格结构；2) 采用基于熵演化的模型表征方法，计算模型各层输出的熵，并分析熵的变化趋势，以捕捉模型在不同层级的特征表示能力；3) 设计了合适的损失函数，用于训练上下文学习器，使其能够准确预测模型在目标数据集上的微调性能。

🖼️ 关键图片

📊 实验亮点

TimeTic在包含10个数据集、10个预训练模型和3个预测任务的综合基准测试中表现出色。实验结果表明，TimeTic的迁移性评估与实际微调性能高度一致，平均秩相关系数约为0.6，并且比使用零样本性能作为迁移性评分提高了30%。这表明TimeTic能够有效地预测模型在未见数据集上的微调性能。

🎯 应用场景

TimeTic可应用于各种时间序列预测场景，例如金融市场预测、能源消耗预测、交通流量预测等。通过高效地选择最适合特定任务的预训练模型，可以显著降低模型微调的成本，并提高预测精度。该研究有助于推动时间序列预训练模型在实际应用中的普及，并加速相关领域的发展。

📄 摘要（原文）

Time series foundation models (TSFMs) offer strong zero-shot forecasting via large-scale pre-training, yet fine-tuning remains critical for boosting performance in domains with limited public data. With the growing number of TSFMs, efficiently identifying the best model for downstream fine-tuning becomes increasingly challenging. In this work, we introduce TimeTic, a transferability estimation framework that recasts model selection as an in-context-learning problem: given observations on known (source) datasets, it predicts how a TSFM will perform after fine-tuning on a downstream (target) dataset. TimeTic flexibly organizes the observed model-data relationships as contextual information, allowing it to adapt seamlessly to various test-time scenarios. Leveraging the natural tabular structure formed by dataset meta-features, model characteristics, and fine-tuned performance, we employ tabular foundation models to serve as in-context learners. We further introduce a novel model characterization based on entropy evolution across model layers, capturing embedding-space distinctions and enabling TimeTic to generalize across arbitrary model sets. We establish a comprehensive benchmark for transferability estimation including 10 datasets, 10 foundation models, and 3 forecasting tasks. On this benchmark, TimeTic's estimation demonstrates strong alignment with actual fine-tuned performance for previously unseen datasets, achieving a mean rank correlation of approximately 0.6 and a 30% improvement compared to using zero-shot performance as the transferability score.

Estimating Time Series Foundation Model Transferability via In-Context Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理