QuantSightBench: Evaluating LLM Quantitative Forecasting with Prediction Intervals
作者: Jeremy Qin, Maksym Andriushchenko
分类: cs.LG, cs.AI
发布日期: 2026-04-17
💡 一句话要点
QuantSightBench:提出预测区间评估LLM量化预测能力,揭示模型校准问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 量化预测 预测区间 不确定性评估 模型校准
📋 核心要点
- 现有LLM评估侧重于简单判断任务,缺乏对连续数值预测不确定性的有效评估。
- 提出使用预测区间作为评估LLM量化预测能力的接口,强调尺度感知和校准。
- 构建QuantSightBench基准,评估前沿模型在预测区间上的表现,发现模型普遍存在过度自信问题。
📝 摘要(中文)
预测已成为评估不确定性推理的自然基准。然而,现有对大型语言模型的评估仍局限于简单格式的判断性任务,例如二元或多项选择题。实际上,预测范围远不止于此。在经济学、公共卫生和社会人口统计学等领域,决策取决于对连续量的数值估计,而当前基准无法捕捉到这种能力。评估此类估计需要一种明确且可测试不确定性的格式。我们提出预测区间作为此目的的自然且严格的接口。它们要求尺度感知、跨置信水平的内部一致性以及对连续结果的校准,使其成为比点估计更适合数值预测的评估格式。为了评估这种能力,我们引入了一个新的基准QuantSightBench,并在多种设置下评估前沿模型,评估经验覆盖率和区间锐度。结果表明,11个被评估的前沿和开源模型均未达到90%的覆盖率目标,其中表现最佳的Gemini 3.1 Pro (79.1%)、Grok 4 (76.4%)和GPT-5.4 (75.3%)均至少差10个百分点。校准在极端幅度下急剧下降,揭示了所有被评估模型的系统性过度自信。
🔬 方法详解
问题定义:论文旨在解决现有LLM评估方法无法有效评估模型在连续数值预测中不确定性表达能力的问题。现有方法主要集中在点估计或简单分类任务,忽略了实际应用中对预测区间的需求,以及模型对预测结果不确定性的校准能力。
核心思路:论文的核心思路是利用预测区间来评估LLM的量化预测能力。预测区间能够显式地表达预测的不确定性,并可以通过经验覆盖率和区间锐度等指标进行评估。通过分析模型生成的预测区间与实际结果的匹配程度,可以更全面地了解模型的预测性能和校准水平。
技术框架:论文构建了QuantSightBench基准,用于评估LLM在不同设置下的预测区间生成能力。该基准包含多个领域的预测任务,并定义了评估指标,包括经验覆盖率和区间锐度。研究人员使用QuantSightBench评估了多个前沿和开源LLM,并分析了它们的预测区间表现。
关键创新:论文的关键创新在于提出了使用预测区间作为评估LLM量化预测能力的标准。与传统的点估计评估方法相比,预测区间能够更全面地反映模型的预测不确定性,并提供更丰富的评估信息。此外,QuantSightBench基准的构建为LLM的量化预测能力评估提供了一个统一的平台。
关键设计:论文的关键设计包括:1) 预测区间的生成方式,例如直接预测区间的上下界,或预测均值和方差;2) 评估指标的选择,包括经验覆盖率(实际值落在预测区间内的比例)和区间锐度(预测区间的宽度);3) 基准数据集的构建,需要覆盖多个领域,并包含足够多的样本,以保证评估结果的可靠性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,当前前沿LLM在QuantSightBench上的表现均未达到90%的覆盖率目标,表明模型普遍存在过度自信问题。其中,表现最佳的Gemini 3.1 Pro、Grok 4和GPT-5.4的覆盖率分别为79.1%、76.4%和75.3%,均低于目标值10个百分点以上。此外,实验还发现,模型在极端幅度下的校准性能会急剧下降。
🎯 应用场景
该研究成果可应用于评估和改进LLM在经济预测、公共卫生预测、气候变化预测等领域的应用。通过使用QuantSightBench,可以更准确地评估LLM的预测能力,并发现模型存在的校准问题,从而指导模型改进和应用部署。该研究还有助于推动LLM在需要量化不确定性表达的实际场景中的应用。
📄 摘要(原文)
Forecasting has become a natural benchmark for reasoning under uncertainty. Yet existing evaluations of large language models remain limited to judgmental tasks in simple formats, such as binary or multiple-choice questions. In practice, however, forecasting spans a far broader scope. Across domains such as economics, public health, and social demographics, decisions hinge on numerical estimates over continuous quantities, a capability that current benchmarks do not capture. Evaluating such estimates requires a format that makes uncertainty explicit and testable. We propose prediction intervals as a natural and rigorous interface for this purpose. They demand scale awareness, internal consistency across confidence levels, and calibration over a continuum of outcomes, making them a more suitable evaluation format than point estimates for numerical forecasting. To assess this capability, we introduce a new benchmark QuantSightBench, and evaluate frontier models under multiple settings, assessing both empirical coverage and interval sharpness. Our results show that none of the 11 evaluated frontier and open-weight models achieves the 90\% coverage target, with the top performers Gemini 3.1 Pro (79.1\%), Grok 4 (76.4\%), and GPT-5.4 (75.3\%) all falling at least 10 percentage points short. Calibration degrades sharply at extreme magnitudes, revealing systematic overconfidence across all evaluated models.