TempusBench: An Evaluation Framework for Time-Series Forecasting
作者: Denizalp Goktas, Gerardo Riaño-Briceño, Alif Abdullah, Aryan Nair, Chenkai Shen, Beatriz de Lucio, Alexandra Magnusson, Farhan Mashrur, Ahmed Abdulla, Shawrna Sen, Mahitha Thippireddy, Gregory Schwartz, Amy Greenwald
分类: cs.LG
发布日期: 2026-04-13
🔗 代码/项目: GITHUB
💡 一句话要点
提出TempusBench时间序列预测评估框架,解决现有评估体系的不足。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 时间序列预测 评估框架 基准测试 超参数调优 可视化 深度学习 基础模型
📋 核心要点
- 现有时间序列预测评估框架数据集陈旧,与预训练数据重叠,且缺乏对统计特性的全面评估。
- TempusBench通过引入新数据集、设计新评估任务、标准化超参数调优和提供可视化界面来解决现有问题。
- TempusBench提供了一个更全面、公平和可解释的评估平台,促进时间序列预测基础模型的发展。
📝 摘要(中文)
本文提出TempusBench,一个用于时间序列预测基础模型(TSFMs)的开源评估框架。现有评估框架存在四大问题:数据集陈旧且与TSFM预训练语料库重叠;评估任务过于狭隘,忽略了非平稳性和季节性等统计特性;超参数调优不一致导致领域特定模型对比不公平;缺乏性能可视化工具。TempusBench通过以下方式解决这些问题:1) 使用未包含在现有TSFM预训练语料库中的新数据集;2) 设计超越现有基准的新评估任务;3) 采用标准化超参数调优协议的模型评估流程;4) 提供基于TensorBoard的可视化界面。代码已在GitHub上开源。
🔬 方法详解
问题定义:现有时间序列预测模型评估框架存在数据集老化、评估指标单一、超参数调优不一致以及缺乏可视化工具等问题。这些问题阻碍了时间序列预测基础模型(TSFM)的公平评估和发展。现有数据集可能与TSFM的预训练数据重叠,导致评估结果失真。评估指标通常只关注预测精度,忽略了时间序列的统计特性,如非平稳性和季节性。不同模型的超参数调优方式不一致,使得模型之间的比较不公平。缺乏可视化工具使得难以理解模型的性能差异。
核心思路:TempusBench的核心思路是构建一个全面、公平和可解释的时间序列预测模型评估框架。通过引入新的数据集、设计新的评估任务、标准化超参数调优流程以及提供可视化界面,TempusBench旨在解决现有评估框架的不足,促进时间序列预测基础模型的发展。
技术框架:TempusBench包含四个主要组成部分:1) 新数据集:这些数据集未包含在现有的TSFM预训练语料库中,确保评估的独立性;2) 新评估任务:这些任务超越了现有的基准,涵盖了更广泛的时间序列预测场景;3) 标准化模型评估流程:该流程采用标准化的超参数调优协议,确保所有模型都以最佳状态进行评估;4) 可视化界面:基于TensorBoard的可视化界面,帮助用户理解模型的性能差异。
关键创新:TempusBench的关键创新在于其综合性的评估方法,它不仅关注预测精度,还考虑了时间序列的统计特性、超参数调优的一致性以及结果的可解释性。通过引入新的数据集和评估任务,TempusBench能够更全面地评估时间序列预测模型的性能。标准化的超参数调优流程确保了模型之间的公平比较。可视化界面则帮助用户理解模型的性能差异,从而更好地进行模型选择和改进。
关键设计:TempusBench的关键设计包括:新数据集的选择标准(例如,确保数据集不包含在现有的TSFM预训练语料库中),新评估任务的设计原则(例如,涵盖不同类型的时间序列预测场景),超参数调优协议的制定(例如,使用相同的优化算法和搜索空间),以及可视化界面的设计(例如,提供不同指标的性能对比图)。具体的参数设置、损失函数和网络结构等细节取决于被评估的模型。
📊 实验亮点
TempusBench引入了未包含在现有TSFM预训练语料库中的新数据集,并设计了超越现有基准的新评估任务。通过标准化超参数调优协议,确保了模型评估的公平性。基于TensorBoard的可视化界面,方便用户理解模型性能。具体性能数据和提升幅度需要在实际实验中进行评估,但TempusBench为公平、全面地评估TSFM奠定了基础。
🎯 应用场景
TempusBench可应用于金融、能源、交通、医疗等多个领域的时间序列预测模型评估。它能够帮助研究人员和工程师选择和优化时间序列预测模型,从而提高预测精度,降低决策风险,并为相关领域的智能化应用提供支持。未来,TempusBench可以扩展到支持更多类型的时间序列数据和预测任务,并集成更多的评估指标和可视化工具。
📄 摘要(原文)
Foundation models have transformed natural language processing and computer vision, and a rapidly growing literature on time-series foundation models (TSFMs) seeks to replicate this success in forecasting. While recent open-source models demonstrate the promise of TSFMs, the field lacks a comprehensive and community-accepted model evaluation framework. We see at least four major issues impeding progress on the development of such a framework. First, current evaluation frameworks consist of benchmark forecasting tasks derived from often outdated datasets (e.g., M3), many of which lack clear metadata and overlap with the corpora used to pre-train TSFMs. Second, existing frameworks evaluate models along a narrowly defined set of benchmark forecasting tasks such as forecast horizon length or domain, but overlook core statistical properties such as non-stationarity and seasonality. Third, domain-specific models (e.g., XGBoost) are often compared unfairly, as existing frameworks neglect a systematic and consistent hyperparameter tuning convention for all models. Fourth, visualization tools for interpreting comparative performance are lacking. To address these issues, we introduce TempusBench, an open-source evaluation framework for TSFMs. TempusBench consists of 1) new datasets which are not included in existing TSFM pretraining corpora, 2) a set of novel benchmark tasks that go beyond existing ones, 3) a model evaluation pipeline with a standardized hyperparameter tuning protocol, and 4) a tensorboard-based visualization interface. We provide access to our code on GitHub: https://github.com/Smlcrm/TempusBench.