Thinking Out Loud: Do Reasoning Models Know When They're Right?

📄 arXiv: 2504.06564v3 📥 PDF

作者: Qingcheng Zeng, Weihao Xuan, Leyang Cui, Rob Voigt

分类: cs.CL

发布日期: 2025-04-09 (更新: 2025-10-19)

备注: EMNLP 2025


💡 一句话要点

研究推理模型在复杂任务中的置信度校准与知识边界感知问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 大型推理模型 置信度校准 知识边界感知 自我反思 推理税

📋 核心要点

  1. 现有大型推理模型在复杂任务中表现出色,但其自我反思能力与模型行为的关联尚不明确。
  2. 论文通过分析模型表达的置信度,研究模型自我反思的本质,并探索其知识边界的感知能力。
  3. 实验表明,监督微调和强化学习能提升置信度校准,但可能降低模型对自身知识边界的认知。

📝 摘要(中文)

大型推理模型(LRMs)最近在复杂推理任务中表现出令人印象深刻的能力,这得益于增加的测试时计算和类似人类的自我反思行为。虽然LRMs表现出明显的自我反思能力,但这种能力与其他模型行为的相互作用仍未得到充分探索。本文通过分析口头表达的置信度(模型表达其确定性的方式)来研究这种联系,以此作为理解LRMs中自我反思本质的窗口。研究发现,在推理轨迹上进行监督微调(即蒸馏)和强化学习可以逐步地提高推理密集型环境中的口头校准。然而,结果也表明,推理模型可能对其自身的知识边界缺乏认识,这体现在事实性基准测试中显著降低的“我不知道”的响应率。此外,本文还研究了口头表达的置信度与推理链之间的关系,发现模型在提供较短或较少详细的推理时,往往会表达更高的置信度。研究结果表明,面向推理的训练可以提高以推理为中心的任务的性能,但也可能导致“推理税”,这反映在模型准确识别自身知识局限性的能力下降。更广泛地说,这项工作展示了这种知识边界的侵蚀如何损害模型的忠实性,因为模型在没有相应理解何时应该弃权的情况下变得更加自信。

🔬 方法详解

问题定义:论文旨在研究大型推理模型在复杂推理任务中,其表达的置信度是否与其真实性能相匹配,以及模型是否能够准确感知自身的知识边界。现有方法虽然提升了推理能力,但忽略了模型对自身知识的认知,可能导致过度自信和不准确的预测。

核心思路:论文的核心思路是将模型表达的置信度作为一种信号,通过分析该信号与模型实际表现之间的关系,来评估模型的自我反思能力和知识边界感知能力。通过观察模型在不同推理长度和不同训练方式下的置信度变化,来推断模型是否真正理解自身的能力范围。

技术框架:论文主要采用以下技术框架:1) 使用大型语言模型作为基础推理模型;2) 通过监督微调和强化学习等方法训练模型,提升推理能力;3) 分析模型在推理过程中表达的置信度,并将其与模型的实际表现进行对比;4) 使用事实性基准测试评估模型对自身知识边界的认知能力。

关键创新:论文的关键创新在于:1) 将模型表达的置信度作为研究对象,以此来评估模型的自我反思能力和知识边界感知能力;2) 揭示了面向推理的训练可能导致“推理税”,即模型在提升推理能力的同时,降低了对自身知识局限性的认知;3) 提出了评估模型知识边界感知能力的方法,并发现现有模型在这方面存在不足。

关键设计:论文的关键设计包括:1) 使用多种推理数据集和事实性基准测试,以全面评估模型的性能;2) 设计了不同的训练策略,包括监督微调和强化学习,以研究不同训练方法对模型置信度校准和知识边界感知能力的影响;3) 分析了推理链的长度和复杂程度与模型置信度之间的关系,以探究模型置信度表达的内在机制。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,监督微调和强化学习可以提高推理模型在推理密集型环境中的口头校准。然而,模型在事实性基准测试中表现出较低的“我不知道”响应率,表明模型可能对其自身的知识边界缺乏认识。此外,研究发现模型在提供较短或较少详细的推理时,往往会表达更高的置信度。

🎯 应用场景

该研究成果可应用于提升大型语言模型的可信度和可靠性,尤其是在需要高精度和高可靠性的领域,如医疗诊断、金融分析和法律咨询等。通过提高模型对自身知识边界的认知,可以减少模型产生错误或误导性信息的风险,从而提高决策的质量。

📄 摘要(原文)

Large reasoning models (LRMs) have recently demonstrated impressive capabilities in complex reasoning tasks by leveraging increased test-time computation and exhibiting behaviors reminiscent of human-like self-reflection. While LRMs show a clear capacity for valuable self-reflection, how this ability interacts with other model behaviors remains underexplored. We investigate this connection by analyzing verbalized confidence, how models articulate their certainty, as a lens into the nature of self-reflection in LRMs. We find that supervised fine-tuning on reasoning traces (i.e., distillation) and reinforcement learning can improve verbalized calibration in reasoning-intensive settings in a progressive, laddered fashion. However, our results also indicate that reasoning models may possess a diminished awareness of their own knowledge boundaries, as evidenced by significantly lower "I don't know" response rates on factuality benchmarks. Moreover, we examine the relationship between verbalized confidence and reasoning chains, finding that models tend to express higher confidence when providing shorter or less elaborate reasoning. Our findings highlight how reasoning-oriented training can enhance performance in reasoning-centric tasks while potentially incurring a "reasoning tax," a cost reflected in the model's reduced ability to accurately recognize the limits of its own knowledge in small-scale models. More broadly, our work showcases how this erosion of knowledge boundaries can compromise model faithfulness, as models grow more confident without a commensurate understanding of when they should abstain.