TempusBench: An Evaluation Framework for Time-Series Forecasting

作者: Denizalp Goktas, Gerardo Riaño-Briceño, Alif Abdullah, Aryan Nair, Chenkai Shen, Beatriz de Lucio, Alexandra Magnusson, Farhan Mashrur, Ahmed Abdulla, Shawrna Sen, Mahitha Thippireddy, Gregory Schwartz, Amy Greenwald

分类: cs.LG

发布日期: 2026-04-13

🔗 代码/项目: GITHUB

💡 一句话要点

提出TempusBench时间序列预测评估框架，解决现有评估体系的不足。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 时间序列预测 评估框架 基准测试 超参数调优 可视化 深度学习 基础模型

📋 核心要点

现有时间序列预测评估框架数据集陈旧，与预训练数据重叠，且缺乏对统计特性的全面评估。
TempusBench通过引入新数据集、设计新评估任务、标准化超参数调优和提供可视化界面来解决现有问题。
TempusBench提供了一个更全面、公平和可解释的评估平台，促进时间序列预测基础模型的发展。

📝 摘要（中文）

本文提出TempusBench，一个用于时间序列预测基础模型（TSFMs）的开源评估框架。现有评估框架存在四大问题：数据集陈旧且与TSFM预训练语料库重叠；评估任务过于狭隘，忽略了非平稳性和季节性等统计特性；超参数调优不一致导致领域特定模型对比不公平；缺乏性能可视化工具。TempusBench通过以下方式解决这些问题：1) 使用未包含在现有TSFM预训练语料库中的新数据集；2) 设计超越现有基准的新评估任务；3) 采用标准化超参数调优协议的模型评估流程；4) 提供基于TensorBoard的可视化界面。代码已在GitHub上开源。

🔬 方法详解

问题定义：现有时间序列预测模型评估框架存在数据集老化、评估指标单一、超参数调优不一致以及缺乏可视化工具等问题。这些问题阻碍了时间序列预测基础模型（TSFM）的公平评估和发展。现有数据集可能与TSFM的预训练数据重叠，导致评估结果失真。评估指标通常只关注预测精度，忽略了时间序列的统计特性，如非平稳性和季节性。不同模型的超参数调优方式不一致，使得模型之间的比较不公平。缺乏可视化工具使得难以理解模型的性能差异。

核心思路：TempusBench的核心思路是构建一个全面、公平和可解释的时间序列预测模型评估框架。通过引入新的数据集、设计新的评估任务、标准化超参数调优流程以及提供可视化界面，TempusBench旨在解决现有评估框架的不足，促进时间序列预测基础模型的发展。

技术框架：TempusBench包含四个主要组成部分：1) 新数据集：这些数据集未包含在现有的TSFM预训练语料库中，确保评估的独立性；2) 新评估任务：这些任务超越了现有的基准，涵盖了更广泛的时间序列预测场景；3) 标准化模型评估流程：该流程采用标准化的超参数调优协议，确保所有模型都以最佳状态进行评估；4) 可视化界面：基于TensorBoard的可视化界面，帮助用户理解模型的性能差异。

关键创新：TempusBench的关键创新在于其综合性的评估方法，它不仅关注预测精度，还考虑了时间序列的统计特性、超参数调优的一致性以及结果的可解释性。通过引入新的数据集和评估任务，TempusBench能够更全面地评估时间序列预测模型的性能。标准化的超参数调优流程确保了模型之间的公平比较。可视化界面则帮助用户理解模型的性能差异，从而更好地进行模型选择和改进。

关键设计：TempusBench的关键设计包括：新数据集的选择标准（例如，确保数据集不包含在现有的TSFM预训练语料库中），新评估任务的设计原则（例如，涵盖不同类型的时间序列预测场景），超参数调优协议的制定（例如，使用相同的优化算法和搜索空间），以及可视化界面的设计（例如，提供不同指标的性能对比图）。具体的参数设置、损失函数和网络结构等细节取决于被评估的模型。

📊 实验亮点

TempusBench引入了未包含在现有TSFM预训练语料库中的新数据集，并设计了超越现有基准的新评估任务。通过标准化超参数调优协议，确保了模型评估的公平性。基于TensorBoard的可视化界面，方便用户理解模型性能。具体性能数据和提升幅度需要在实际实验中进行评估，但TempusBench为公平、全面地评估TSFM奠定了基础。

🎯 应用场景

TempusBench可应用于金融、能源、交通、医疗等多个领域的时间序列预测模型评估。它能够帮助研究人员和工程师选择和优化时间序列预测模型，从而提高预测精度，降低决策风险，并为相关领域的智能化应用提供支持。未来，TempusBench可以扩展到支持更多类型的时间序列数据和预测任务，并集成更多的评估指标和可视化工具。

📄 摘要（原文）

Foundation models have transformed natural language processing and computer vision, and a rapidly growing literature on time-series foundation models (TSFMs) seeks to replicate this success in forecasting. While recent open-source models demonstrate the promise of TSFMs, the field lacks a comprehensive and community-accepted model evaluation framework. We see at least four major issues impeding progress on the development of such a framework. First, current evaluation frameworks consist of benchmark forecasting tasks derived from often outdated datasets (e.g., M3), many of which lack clear metadata and overlap with the corpora used to pre-train TSFMs. Second, existing frameworks evaluate models along a narrowly defined set of benchmark forecasting tasks such as forecast horizon length or domain, but overlook core statistical properties such as non-stationarity and seasonality. Third, domain-specific models (e.g., XGBoost) are often compared unfairly, as existing frameworks neglect a systematic and consistent hyperparameter tuning convention for all models. Fourth, visualization tools for interpreting comparative performance are lacking. To address these issues, we introduce TempusBench, an open-source evaluation framework for TSFMs. TempusBench consists of 1) new datasets which are not included in existing TSFM pretraining corpora, 2) a set of novel benchmark tasks that go beyond existing ones, 3) a model evaluation pipeline with a standardized hyperparameter tuning protocol, and 4) a tensorboard-based visualization interface. We provide access to our code on GitHub: https://github.com/Smlcrm/TempusBench.

TempusBench: An Evaluation Framework for Time-Series Forecasting

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理