TFRBench: A Reasoning Benchmark for Evaluating Forecasting Systems
作者: Md Atik Ahamed, Mihir Parmar, Palash Goyal, Yiwen Song, Long T. Le, Qiang Cheng, Chun-Liang Li, Hamid Palangi, Jinsung Yoon, Tomas Pfister
分类: cs.AI
发布日期: 2026-04-07
💡 一句话要点
TFRBench:用于评估预测系统推理能力的新基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 时间序列预测 推理评估 基准测试 多智能体系统 可解释AI
📋 核心要点
- 现有时间序列预测评估主要依赖数值精度,忽略了模型的推理能力,无法深入理解模型行为。
- TFRBench提出多智能体框架,通过迭代验证循环生成数值依据的推理轨迹,用于评估模型对跨通道依赖、趋势和外部事件的分析。
- 实验表明,利用TFRBench生成的推理轨迹提示LLM,可显著提升预测准确性,验证了推理质量,并揭示了现有LLM在推理和预测方面的不足。
📝 摘要(中文)
我们提出了TFRBench,这是首个旨在评估预测系统推理能力的基准。传统上,时间序列预测的评估仅基于数值精度,将基础模型视为“黑盒”。与现有基准不同,TFRBench提供了一个协议,用于评估预测系统生成的推理——特别是它们对跨通道依赖性、趋势和外部事件的分析。为此,我们提出了一个系统的多智能体框架,该框架利用迭代验证循环来合成数值上有依据的推理轨迹。我们的评估涵盖五个领域的十个数据集,证实了这种推理在因果上是有效的;对评估有用;并且使用我们生成的轨迹提示LLM可以显著提高预测准确性,与直接数值预测相比(例如,平均从约40.2%提高到56.6%),验证了我们推理的质量。相反,基准测试实验表明,现成的LLM在推理(较低的LLM-as-a-Judge分数)和数值预测方面都存在困难,经常无法捕捉到特定领域的动态。因此,TFRBench为时间序列预测中可解释的、基于推理的评估建立了一个新标准。我们的基准可在https://tfrbench.github.io上找到。
🔬 方法详解
问题定义:现有时间序列预测评估方法主要关注数值精度,缺乏对模型推理能力的有效评估。这使得我们难以理解模型如何做出预测,以及模型在哪些方面存在不足。现有方法将预测模型视为黑盒,无法深入分析其内部机制和决策过程。
核心思路:TFRBench的核心思路是通过构建一个多智能体框架,模拟人类专家进行时间序列分析和推理的过程。该框架生成可解释的推理轨迹,用于评估预测模型对时间序列数据中各种因素(如跨通道依赖、趋势和外部事件)的理解程度。通过评估推理轨迹的质量,可以更全面地了解模型的预测能力。
技术框架:TFRBench的技术框架包含以下主要模块:1) 数据集:包含来自不同领域的多个时间序列数据集。2) 多智能体框架:由多个智能体组成,每个智能体负责分析时间序列数据的不同方面。3) 迭代验证循环:通过迭代验证循环,生成数值上有依据的推理轨迹。4) 评估指标:用于评估推理轨迹的质量和预测模型的性能。5) LLM提示:利用生成的推理轨迹提示LLM,提高预测准确性。
关键创新:TFRBench的关键创新在于其基于推理的评估方法。与传统的基于数值精度的评估方法不同,TFRBench能够评估模型对时间序列数据中各种因素的理解程度,并生成可解释的推理轨迹。此外,TFRBench还提出了一个系统的多智能体框架,用于生成高质量的推理轨迹。
关键设计:TFRBench的关键设计包括:1) 多智能体的选择和配置:选择具有不同专业知识的智能体,并配置它们之间的交互方式。2) 迭代验证循环的设计:设计有效的迭代验证循环,以确保生成的推理轨迹的质量。3) 评估指标的选择:选择能够有效评估推理轨迹质量和预测模型性能的评估指标。4) LLM提示策略:设计有效的LLM提示策略,以提高预测准确性。
📊 实验亮点
实验结果表明,使用TFRBench生成的推理轨迹提示LLM,可以显著提高预测准确性(平均从约40.2%提高到56.6%)。同时,实验还揭示了现成的LLM在推理和数值预测方面存在不足,经常无法捕捉到特定领域的动态。这些结果验证了TFRBench的有效性,并表明基于推理的评估方法在时间序列预测中具有重要意义。
🎯 应用场景
TFRBench可应用于评估各种时间序列预测系统,例如金融预测、需求预测、能源预测和医疗预测等。它有助于开发者更好地理解模型的优势和不足,从而改进模型的设计和性能。此外,TFRBench还可以用于比较不同预测模型的推理能力,为用户选择合适的模型提供依据。该基准的推出将促进时间序列预测领域的发展,并推动可解释AI的研究。
📄 摘要(原文)
We introduce TFRBench, the first benchmark designed to evaluate the reasoning capabilities of forecasting systems. Traditionally, time-series forecasting has been evaluated solely on numerical accuracy, treating foundation models as ``black boxes.'' Unlike existing benchmarks, TFRBench provides a protocol for evaluating the reasoning generated by forecasting systems--specifically their analysis of cross-channel dependencies, trends, and external events. To enable this, we propose a systematic multi-agent framework that utilizes an iterative verification loop to synthesize numerically grounded reasoning traces. Spanning ten datasets across five domains, our evaluation confirms that this reasoning is causally effective; useful for evaluation; and prompting LLMs with our generated traces significantly improves forecasting accuracy compared to direct numerical prediction (e.g., avg. $\sim40.2\%\to56.6\%)$, validating the quality of our reasoning. Conversely, benchmarking experiments reveal that off-the-shelf LLMs consistently struggle with both reasoning (lower LLM-as-a-Judge scores) and numerical forecasting, frequently failing to capture domain-specific dynamics. TFRBench thus establishes a new standard for interpretable, reasoning-based evaluation in time-series forecasting. Our benchmark is available at: https://tfrbench.github.io