TFRBench: A Reasoning Benchmark for Evaluating Forecasting Systems

作者: Md Atik Ahamed, Mihir Parmar, Palash Goyal, Yiwen Song, Long T. Le, Qiang Cheng, Chun-Liang Li, Hamid Palangi, Jinsung Yoon, Tomas Pfister

分类: cs.AI

发布日期: 2026-04-07

💡 一句话要点

TFRBench：用于评估预测系统推理能力的新基准

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 时间序列预测 推理评估 基准测试 多智能体系统 可解释AI

📋 核心要点

现有时间序列预测评估主要依赖数值精度，忽略了模型的推理能力，无法深入理解模型行为。
TFRBench提出多智能体框架，通过迭代验证循环生成数值依据的推理轨迹，用于评估模型对跨通道依赖、趋势和外部事件的分析。
实验表明，利用TFRBench生成的推理轨迹提示LLM，可显著提升预测准确性，验证了推理质量，并揭示了现有LLM在推理和预测方面的不足。

📝 摘要（中文）

我们提出了TFRBench，这是首个旨在评估预测系统推理能力的基准。传统上，时间序列预测的评估仅基于数值精度，将基础模型视为“黑盒”。与现有基准不同，TFRBench提供了一个协议，用于评估预测系统生成的推理——特别是它们对跨通道依赖性、趋势和外部事件的分析。为此，我们提出了一个系统的多智能体框架，该框架利用迭代验证循环来合成数值上有依据的推理轨迹。我们的评估涵盖五个领域的十个数据集，证实了这种推理在因果上是有效的；对评估有用；并且使用我们生成的轨迹提示LLM可以显著提高预测准确性，与直接数值预测相比（例如，平均从约40.2％提高到56.6％），验证了我们推理的质量。相反，基准测试实验表明，现成的LLM在推理（较低的LLM-as-a-Judge分数）和数值预测方面都存在困难，经常无法捕捉到特定领域的动态。因此，TFRBench为时间序列预测中可解释的、基于推理的评估建立了一个新标准。我们的基准可在https://tfrbench.github.io上找到。

🔬 方法详解

问题定义：现有时间序列预测评估方法主要关注数值精度，缺乏对模型推理能力的有效评估。这使得我们难以理解模型如何做出预测，以及模型在哪些方面存在不足。现有方法将预测模型视为黑盒，无法深入分析其内部机制和决策过程。

核心思路：TFRBench的核心思路是通过构建一个多智能体框架，模拟人类专家进行时间序列分析和推理的过程。该框架生成可解释的推理轨迹，用于评估预测模型对时间序列数据中各种因素（如跨通道依赖、趋势和外部事件）的理解程度。通过评估推理轨迹的质量，可以更全面地了解模型的预测能力。

技术框架：TFRBench的技术框架包含以下主要模块：1) 数据集：包含来自不同领域的多个时间序列数据集。2) 多智能体框架：由多个智能体组成，每个智能体负责分析时间序列数据的不同方面。3) 迭代验证循环：通过迭代验证循环，生成数值上有依据的推理轨迹。4) 评估指标：用于评估推理轨迹的质量和预测模型的性能。5) LLM提示：利用生成的推理轨迹提示LLM，提高预测准确性。

关键创新：TFRBench的关键创新在于其基于推理的评估方法。与传统的基于数值精度的评估方法不同，TFRBench能够评估模型对时间序列数据中各种因素的理解程度，并生成可解释的推理轨迹。此外，TFRBench还提出了一个系统的多智能体框架，用于生成高质量的推理轨迹。

关键设计：TFRBench的关键设计包括：1) 多智能体的选择和配置：选择具有不同专业知识的智能体，并配置它们之间的交互方式。2) 迭代验证循环的设计：设计有效的迭代验证循环，以确保生成的推理轨迹的质量。3) 评估指标的选择：选择能够有效评估推理轨迹质量和预测模型性能的评估指标。4) LLM提示策略：设计有效的LLM提示策略，以提高预测准确性。

📊 实验亮点

实验结果表明，使用TFRBench生成的推理轨迹提示LLM，可以显著提高预测准确性（平均从约40.2％提高到56.6％）。同时，实验还揭示了现成的LLM在推理和数值预测方面存在不足，经常无法捕捉到特定领域的动态。这些结果验证了TFRBench的有效性，并表明基于推理的评估方法在时间序列预测中具有重要意义。

🎯 应用场景

TFRBench可应用于评估各种时间序列预测系统，例如金融预测、需求预测、能源预测和医疗预测等。它有助于开发者更好地理解模型的优势和不足，从而改进模型的设计和性能。此外，TFRBench还可以用于比较不同预测模型的推理能力，为用户选择合适的模型提供依据。该基准的推出将促进时间序列预测领域的发展，并推动可解释AI的研究。

📄 摘要（原文）

We introduce TFRBench, the first benchmark designed to evaluate the reasoning capabilities of forecasting systems. Traditionally, time-series forecasting has been evaluated solely on numerical accuracy, treating foundation models as ``black boxes.'' Unlike existing benchmarks, TFRBench provides a protocol for evaluating the reasoning generated by forecasting systems--specifically their analysis of cross-channel dependencies, trends, and external events. To enable this, we propose a systematic multi-agent framework that utilizes an iterative verification loop to synthesize numerically grounded reasoning traces. Spanning ten datasets across five domains, our evaluation confirms that this reasoning is causally effective; useful for evaluation; and prompting LLMs with our generated traces significantly improves forecasting accuracy compared to direct numerical prediction (e.g., avg. $\sim40.2\%\to56.6\%)$, validating the quality of our reasoning. Conversely, benchmarking experiments reveal that off-the-shelf LLMs consistently struggle with both reasoning (lower LLM-as-a-Judge scores) and numerical forecasting, frequently failing to capture domain-specific dynamics. TFRBench thus establishes a new standard for interpretable, reasoning-based evaluation in time-series forecasting. Our benchmark is available at: https://tfrbench.github.io

TFRBench: A Reasoning Benchmark for Evaluating Forecasting Systems

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理