Investigating simple target-covariate relationships for Chronos-2 and TabPFN-TS

📄 arXiv: 2605.12200v1 📥 PDF

作者: Gaspard Berthelier, Mariia Baranova, Andrei-Tiberiu Pantea, Etienne Le Naour, Adrien Petralia, Tahar Nabil, Themis Palpanas

分类: cs.LG

发布日期: 2026-05-12


💡 一句话要点

评估时间序列基础模型对目标-协变量关系的建模能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 时间序列预测 基础模型 协变量 受控实验 模型评估

📋 核心要点

  1. 时间序列基础模型在零样本预测中表现出色,但对协变量的有效利用仍是挑战。
  2. 论文设计受控实验,通过简单目标-协变量关系来评估模型整合协变量的能力。
  3. 实验表明,TabPFN-TS在建模简单协变量关系方面优于Chronos-2,尤其是在短预测范围内。

📝 摘要(中文)

时间序列基础模型(TSFMs)最近取得了最先进的性能,通常在零样本设置中优于监督模型。诸如Chronos-2和TabPFN-TS等最新的TSFM架构旨在整合协变量。在本文中,我们设计了基于简单目标-协变量关系的受控实验,以评估这种整合能力。我们的结果表明,TabPFN-TS比Chronos-2更有效地捕获这些关系,尤其是在短预测范围内,这表明Chronos-2强大的基准性能并不能自动转化为对简单协变量-目标依赖关系的最佳建模。

🔬 方法详解

问题定义:论文旨在评估时间序列基础模型(TSFMs),特别是Chronos-2和TabPFN-TS,在建模目标变量与协变量之间简单关系的能力。现有TSFM虽然在零样本预测任务中表现良好,但其有效利用协变量的能力尚未得到充分研究和理解。现有的benchmark可能无法充分体现模型对协变量关系的建模能力。

核心思路:论文的核心思路是通过设计一系列受控实验,这些实验基于预先定义好的、简单的目标变量与协变量之间的关系。通过观察模型在这些受控实验中的表现,可以更清晰地评估模型是否能够有效地学习和利用协变量信息来提高预测精度。这种方法避免了真实世界数据的复杂性和噪声,从而能够更直接地评估模型的建模能力。

技术框架:论文的技术框架主要包括以下几个步骤:1) 定义简单的目标-协变量关系,例如线性关系、多项式关系等。2) 基于这些关系生成合成时间序列数据。3) 使用Chronos-2和TabPFN-TS对生成的数据进行训练和预测。4) 评估模型的预测精度,并比较两个模型在不同关系下的表现。整个流程旨在创建一个可控的环境,以便深入分析模型对协变量的利用情况。

关键创新:论文的关键创新在于其评估TSFM的方式。不同于以往依赖复杂真实世界数据的benchmark,该研究采用了一种基于受控实验的评估方法。这种方法允许研究人员精确控制目标变量和协变量之间的关系,从而能够更清晰地评估模型对这些关系的建模能力。这种受控实验的设计思路为评估TSFM的特定能力提供了一种新的视角。

关键设计:论文的关键设计在于目标-协变量关系的选取。研究人员选择了多种简单的关系,例如线性关系、多项式关系等,以覆盖不同类型的依赖关系。此外,论文还考虑了预测范围的影响,通过改变预测长度来评估模型在不同预测范围下的表现。这些设计使得实验结果更具代表性和可解释性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,TabPFN-TS在捕获简单目标-协变量关系方面优于Chronos-2,尤其是在短预测范围内。这表明Chronos-2在标准benchmark上的优异性能并不一定意味着其能够有效地建模简单的协变量依赖关系。该研究强调了针对特定建模能力进行评估的重要性,并为未来TSFM的改进方向提供了启示。

🎯 应用场景

该研究成果可应用于评估和改进时间序列基础模型对外部因素(协变量)的建模能力,从而提升模型在实际应用中的预测精度。例如,在金融预测中,可以利用该方法评估模型对利率、通货膨胀等因素的敏感性。在能源需求预测中,可以评估模型对天气、经济活动等因素的建模能力。该研究有助于开发更可靠、更具解释性的时间序列预测模型。

📄 摘要(原文)

Time Series Foundation Models (TSFMs) have recently achieved state-of-the-art performance, often outperforming supervised models in zero-shot settings. Recent TSFM architectures, such as Chronos-2 and TabPFN-TS, aim to integrate covariates. In this paper, we design controlled experiments based on simple target-covariate relationships to assess this integration capability. Our results show that TabPFN-TS captures these relationships more effectively than Chronos-2, especially for short horizons, suggesting that the strong benchmark performance of Chronos-2 does not automatically translate into optimal modeling of simple covariate-target dependencies.