How Uncertainty Estimation Scales with Sampling in Reasoning Models

📄 arXiv: 2603.19118v1 📥 PDF

作者: Maksym Del, Markus Kängsepp, Marharyta Domnich, Ardi Tampuu, Lisa Yankovskaya, Meelis Kull, Mark Fishel

分类: cs.AI, cs.CL, cs.LG

发布日期: 2026-03-19


💡 一句话要点

研究推理模型中基于采样的不确定性估计方法,并提出混合估计器。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 不确定性估计 推理模型 并行采样 自洽性 口头置信度 混合估计器 思维链 语言模型

📋 核心要点

  1. 现有推理语言模型在扩展推理链中不确定性估计不足,阻碍了可靠部署。
  2. 论文提出一种基于并行采样的黑盒方法,结合口头置信度和自洽性进行不确定性估计。
  3. 实验表明,混合估计器在少量样本下即可显著提升AUROC,且优于单独使用口头置信度或自洽性。

📝 摘要(中文)

不确定性估计对于部署推理语言模型至关重要,但在扩展的思维链推理下,对其理解仍然不足。本文研究了并行采样作为一种完全黑盒的方法,使用口头置信度和自洽性。通过三个推理模型和涵盖数学、STEM 和人文科学的 17 个任务,描述了这些信号如何缩放。自洽性和口头置信度都在推理模型中缩放,但自洽性表现出较低的初始区分度,并且在适度采样下落后于口头置信度。然而,大多数不确定性增益来自信号组合:仅使用两个样本,混合估计器平均将 AUROC 提高高达 +12,并且已经优于单独使用任一信号,即使缩放到更大的预算也是如此,之后收益递减。这些影响是领域相关的:在数学中,RLVR 风格后训练的本土领域,推理模型实现了更高的不确定性质量,并且表现出比 STEM 或人文科学更强的互补性和更快的缩放。

🔬 方法详解

问题定义:论文旨在解决推理语言模型在长链推理过程中不确定性估计的问题。现有方法在不确定性量化方面存在不足,尤其是在实际应用中,模型给出的答案可能并不总是可靠的。因此,如何准确评估模型输出的不确定性,对于确保模型安全可靠地部署至关重要。

核心思路:论文的核心思路是利用并行采样,通过生成多个推理路径,并结合口头置信度和自洽性来估计模型的不确定性。通过分析不同推理路径之间的差异和模型自身的置信度,可以更全面地了解模型输出的可靠性。

技术框架:该方法主要包含以下几个阶段:1) 并行采样:对给定的输入,使用推理模型生成多个不同的推理路径。2) 口头置信度提取:从每个推理路径中提取模型自身的置信度评分。3) 自洽性评估:评估不同推理路径之间的一致性程度。4) 混合估计:结合口头置信度和自洽性,构建一个混合估计器来量化模型的不确定性。

关键创新:论文的关键创新在于提出了一个混合估计器,它能够有效地结合口头置信度和自洽性,从而更准确地估计模型的不确定性。此外,论文还深入分析了不同信号在不同领域中的缩放特性,揭示了它们之间的互补关系。

关键设计:论文中,口头置信度直接从模型的输出文本中提取,例如“I am very confident that the answer is X”。自洽性通过比较不同推理路径的最终答案是否一致来评估。混合估计器可以使用简单的加权平均或更复杂的机器学习模型来实现。具体的权重或模型参数需要根据实验数据进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,混合估计器在AUROC指标上平均提升高达+12,并且仅使用两个样本即可超越单独使用口头置信度或自洽性的大规模采样。此外,研究还发现,在数学领域,模型的不确定性质量更高,互补性更强,缩放速度更快,这表明领域知识对于提高不确定性估计的准确性至关重要。

🎯 应用场景

该研究成果可应用于各种需要可靠推理的场景,例如医疗诊断、金融风险评估、法律咨询等。通过准确估计模型的不确定性,可以帮助用户更好地理解模型的局限性,并做出更明智的决策。此外,该方法还可以用于提高模型的鲁棒性和泛化能力,使其在面对复杂和不确定的环境时表现更佳。

📄 摘要(原文)

Uncertainty estimation is critical for deploying reasoning language models, yet remains poorly understood under extended chain-of-thought reasoning. We study parallel sampling as a fully black-box approach using verbalized confidence and self-consistency. Across three reasoning models and 17 tasks spanning mathematics, STEM, and humanities, we characterize how these signals scale. Both self-consistency and verbalized confidence scale in reasoning models, but self-consistency exhibits lower initial discrimination and lags behind verbalized confidence under moderate sampling. Most uncertainty gains, however, arise from signal combination: with just two samples, a hybrid estimator improves AUROC by up to $+12$ on average and already outperforms either signal alone even when scaled to much larger budgets, after which returns diminish. These effects are domain-dependent: in mathematics, the native domain of RLVR-style post-training, reasoning models achieve higher uncertainty quality and exhibit both stronger complementarity and faster scaling than in STEM or humanities.