Reasoning Models Better Express Their Confidence

📄 arXiv: 2505.14489v2 📥 PDF

作者: Dongkeun Yoon, Seungone Kim, Sohee Yang, Sunkyoung Kim, Soyeon Kim, Yongil Kim, Eunbi Choi, Yireun Kim, Minjoon Seo

分类: cs.AI, cs.CL

发布日期: 2025-05-20 (更新: 2025-10-22)

备注: Accepted to NeurIPS 2025


💡 一句话要点

思维链推理模型能更准确地表达其置信度

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 置信度校准 思维链推理 慢思考 可靠性 自然语言处理 上下文学习

📋 核心要点

  1. 大型语言模型缺乏准确表达置信度的能力,限制了其在实际应用中的可靠性。
  2. 通过引入思维链(CoT)推理,模型能够进行慢思考,动态调整置信度,从而提高校准的准确性。
  3. 实验表明,CoT推理模型在置信度校准方面显著优于非推理模型,并且慢思考行为是提升的关键。

📝 摘要(中文)

大型语言模型(LLM)虽然强大,但常常无法准确传达其置信度,这使得评估其错误的可能性变得困难,并限制了其可靠性。本文证明,采用扩展思维链(CoT)推理的推理模型不仅在解决问题方面表现更出色,而且在准确表达其置信度方面也表现更佳。具体来说,我们对六个推理模型在六个数据集上进行了基准测试,发现它们在36个设置中的33个设置中实现了比非推理模型更好的置信度校准。详细分析表明,校准方面的提升源于推理模型的慢思考行为(例如,探索替代方法和回溯),这使得它们能够在整个CoT过程中动态调整其置信度,使其逐渐变得更加准确。特别地,我们发现推理模型随着CoT的展开,校准效果越来越好,而非推理模型则没有观察到这种趋势。此外,从CoT中移除慢思考行为会导致校准效果显著下降。最后,我们表明,非推理模型在通过上下文学习引导进行慢思考时,也表现出增强的校准效果,从而完全将慢思考隔离为校准增益的来源。

🔬 方法详解

问题定义:大型语言模型在生成答案时,往往无法准确地表达其置信度。这意味着即使模型给出了错误的答案,也可能表现出很高的置信度,导致用户难以判断答案的可靠性。现有方法缺乏有效的置信度校准机制,使得模型在实际应用中存在潜在风险。

核心思路:论文的核心思路是利用思维链(Chain-of-Thought, CoT)推理过程中的“慢思考”行为来提升模型置信度的校准。CoT推理允许模型逐步推导答案,并在推理过程中探索不同的可能性和进行回溯,从而使模型能够更准确地评估其答案的正确性。

技术框架:该研究通过对六个推理模型在六个数据集上进行基准测试来验证其假设。这些模型包括采用CoT推理的模型和非CoT推理的模型。研究人员分析了这些模型在不同设置下的置信度校准情况,并探究了CoT推理过程中的慢思考行为对置信度校准的影响。

关键创新:论文的关键创新在于发现了CoT推理过程中的慢思考行为是提升模型置信度校准的关键因素。通过对CoT推理过程的分析,研究人员发现模型在推理过程中会动态调整其置信度,并且随着推理的进行,置信度会逐渐变得更加准确。此外,研究还表明,移除CoT推理过程中的慢思考行为会导致置信度校准效果显著下降。

关键设计:研究中关键的设计包括:1)使用多个数据集和模型进行实验,以确保结果的泛化性;2)通过移除CoT推理过程中的慢思考行为来验证其对置信度校准的影响;3)通过上下文学习引导非推理模型进行慢思考,以进一步验证慢思考行为的作用。具体而言,研究人员可能使用了诸如温度系数调整等方法来控制模型的生成概率,从而影响其置信度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,采用CoT推理的模型在36个设置中的33个设置中实现了比非推理模型更好的置信度校准。研究还发现,随着CoT的展开,推理模型的校准效果越来越好,而非推理模型则没有观察到这种趋势。此外,移除CoT推理过程中的慢思考行为会导致校准效果显著下降。通过上下文学习引导非推理模型进行慢思考,也能提升其校准效果。

🎯 应用场景

该研究成果可应用于各种需要高可靠性的自然语言处理任务中,例如医疗诊断、金融风险评估和法律咨询等。通过提高语言模型的置信度校准,可以帮助用户更好地理解模型的判断,并降低因模型错误判断而造成的风险。未来,该研究可以进一步扩展到其他类型的语言模型和任务中。

📄 摘要(原文)

Despite their strengths, large language models (LLMs) often fail to communicate their confidence accurately, making it difficult to assess when they might be wrong and limiting their reliability. In this work, we demonstrate that reasoning models that engage in extended chain-of-thought (CoT) reasoning exhibit superior performance not only in problem-solving but also in accurately expressing their confidence. Specifically, we benchmark six reasoning models across six datasets and find that they achieve strictly better confidence calibration than their non-reasoning counterparts in 33 out of the 36 settings. Our detailed analysis reveals that these gains in calibration stem from the slow thinking behaviors of reasoning models (e.g., exploring alternative approaches and backtracking) which enable them to adjust their confidence dynamically throughout their CoT, making it progressively more accurate. In particular, we find that reasoning models become increasingly better calibrated as their CoT unfolds, a trend not observed in non-reasoning models. Moreover, removing slow thinking behaviors from the CoT leads to a significant drop in calibration. Lastly, we show that non-reasoning models also demonstrate enhanced calibration when simply guided to slow think via in-context learning, fully isolating slow thinking as the source of the calibration gains.