The Forecast Critic: Leveraging Large Language Models for Poor Forecast Identification

作者: Luke Bhan, Hanyu Zhang, Andrew Gordon Wilson, Michael W. Mahoney, Chuck Arvin

分类: cs.AI

发布日期: 2025-12-12

备注: Presented at AAAI 2026 AI4TS workshop and AABA4ET workshop

💡 一句话要点

提出Forecast Critic，利用大语言模型识别不合理的预测结果，提升零售业务效率。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 时间序列预测 预测监控 自动化评估 零售业务

📋 核心要点

大型零售企业依赖预测系统，但现有方法缺乏自动监控和识别不合理预测的能力，影响效率。
Forecast Critic利用LLM的推理能力，将预测监控转化为一个评估预测合理性的任务，无需领域特定微调。
实验表明，LLM能有效检测时间错位、趋势不一致等问题，最佳模型F1达0.88，多模态LLM能整合上下文信息。

📝 摘要（中文）

本文提出Forecast Critic，一个利用大型语言模型（LLM）进行自动化预测监控的系统，旨在利用LLM的广泛知识和推理能力。研究系统评估了LLM评估时间序列预测质量的能力，重点关注三个关键问题：（1）LLM能否用于执行预测监控并识别明显不合理的预测？（2）LLM能否有效地整合非结构化外部特征来评估合理的预测？（3）在最先进的LLM中，性能如何随模型大小和推理能力变化？通过合成和真实预测数据进行了三个实验。结果表明，LLM可以可靠地检测和批判不良预测，例如那些受到时间错位、趋势不一致和峰值错误影响的预测。最佳模型的F1得分为0.88，略低于人类水平（F1得分：0.97）。研究还表明，多模态LLM可以有效地整合非结构化上下文信号，以改进其对预测的评估。当提供过去促销的历史背景时，模型可以正确识别缺失或虚假的促销峰值（F1得分：0.84）。最后，研究表明这些技术成功地识别了真实M5时间序列数据集中的不准确预测，其中不合理的预测的sCRPS比合理的预测高至少10%。这些发现表明，即使没有特定领域的微调，LLM也可以为自动化预测监控和评估提供可行且可扩展的选项。

🔬 方法详解

问题定义：论文旨在解决大规模零售企业中预测系统监控的问题。现有方法难以自动识别不合理的预测，例如时间错位、趋势不一致等，导致人工监控成本高昂，且难以保证及时性。因此，需要一种能够自动、高效地评估预测质量的系统。

核心思路：论文的核心思路是将预测监控问题转化为一个利用大型语言模型（LLM）评估预测合理性的任务。LLM具备强大的世界知识和推理能力，可以判断给定的预测是否符合常理和历史规律。通过将预测和相关上下文信息输入LLM，让其判断预测的合理性，从而实现自动化的预测监控。

技术框架：Forecast Critic系统的整体框架包括以下几个主要模块：1) 数据输入模块：接收时间序列预测数据和相关的上下文信息（例如，促销活动、节假日等）。2) LLM推理模块：将输入数据转化为LLM可以理解的文本格式，并输入LLM进行推理，判断预测的合理性。3) 评估模块：根据LLM的输出结果，对预测进行评估，并生成相应的报告。4) 多模态融合模块（可选）：对于多模态LLM，可以融合非结构化的上下文信息（例如，图像、文本描述等）来提高评估的准确性。

关键创新：论文最重要的技术创新点在于将LLM应用于预测监控领域，并验证了其可行性和有效性。与传统的基于统计方法或机器学习模型的预测监控方法相比，LLM具有更强的泛化能力和推理能力，可以处理更复杂、更不规则的预测场景。此外，论文还探索了多模态LLM在预测监控中的应用，进一步提高了评估的准确性。

关键设计：论文的关键设计包括：1) 如何将时间序列预测数据和上下文信息转化为LLM可以理解的文本格式。2) 如何设计合适的prompt，引导LLM进行推理和判断。3) 如何选择合适的LLM模型，并对其进行必要的微调。4) 如何评估LLM的预测监控性能，并与其他方法进行比较。论文使用了F1 score和sCRPS等指标来评估模型的性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，LLM能够可靠地检测和批判不良预测，最佳模型的F1得分为0.88，略低于人类水平（F1得分：0.97）。多模态LLM可以有效地整合非结构化上下文信号，当提供过去促销的历史背景时，模型可以正确识别缺失或虚假的促销峰值（F1得分：0.84）。在真实M5数据集上，不合理预测的sCRPS比合理预测高至少10%。

🎯 应用场景

该研究成果可应用于零售、电商、供应链管理等领域，实现对预测系统的自动化监控，及时发现并纠正不合理的预测，从而提高运营效率、降低成本、提升客户满意度。未来可扩展到其他时间序列预测场景，例如金融、能源等。

📄 摘要（原文）

Monitoring forecasting systems is critical for customer satisfaction, profitability, and operational efficiency in large-scale retail businesses. We propose The Forecast Critic, a system that leverages Large Language Models (LLMs) for automated forecast monitoring, taking advantage of their broad world knowledge and strong ``reasoning'' capabilities. As a prerequisite for this, we systematically evaluate the ability of LLMs to assess time series forecast quality, focusing on three key questions. (1) Can LLMs be deployed to perform forecast monitoring and identify obviously unreasonable forecasts? (2) Can LLMs effectively incorporate unstructured exogenous features to assess what a reasonable forecast looks like? (3) How does performance vary across model sizes and reasoning capabilities, measured across state-of-the-art LLMs? We present three experiments, including on both synthetic and real-world forecasting data. Our results show that LLMs can reliably detect and critique poor forecasts, such as those plagued by temporal misalignment, trend inconsistencies, and spike errors. The best-performing model we evaluated achieves an F1 score of 0.88, somewhat below human-level performance (F1 score: 0.97). We also demonstrate that multi-modal LLMs can effectively incorporate unstructured contextual signals to refine their assessment of the forecast. Models correctly identify missing or spurious promotional spikes when provided with historical context about past promotions (F1 score: 0.84). Lastly, we demonstrate that these techniques succeed in identifying inaccurate forecasts on the real-world M5 time series dataset, with unreasonable forecasts having an sCRPS at least 10% higher than that of reasonable forecasts. These findings suggest that LLMs, even without domain-specific fine-tuning, may provide a viable and scalable option for automated forecast monitoring and evaluation.

The Forecast Critic: Leveraging Large Language Models for Poor Forecast Identification

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理