Closing the Confidence-Faithfulness Gap in Large Language Models

📄 arXiv: 2603.25052v1 📥 PDF

作者: Miranda Muqing Miao, Lyle Ungar

分类: cs.CL, cs.AI

发布日期: 2026-03-26


💡 一句话要点

提出自适应steering方法,弥合大语言模型置信度与准确率之间的差距

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 置信度校准 机制可解释性 线性探针 对比激活添加

📋 核心要点

  1. 大语言模型verbalized置信度与实际准确率不匹配,其内在机制尚不明确,存在校准问题。
  2. 通过线性探针和对比激活添加,发现校准信号和verbalized置信度信号线性编码且正交。
  3. 提出两阶段自适应steering流程,利用模型内部准确率估计来调整verbalized输出,提升校准对齐。

📝 摘要(中文)

大型语言模型(LLMs)倾向于表达与实际准确率严重脱节的置信度分数,但支配这种行为的几何关系仍然知之甚少。本文对verbalized置信度进行了机制可解释性分析,使用线性探针和对比激活添加(CAA)steering表明,校准和verbalized置信度信号被线性编码,但彼此正交——这一发现在三个开源模型和四个数据集上是一致的。有趣的是,当模型被提示同时推理问题并表达置信度分数时,推理过程会扰乱verbalized置信度的方向,加剧错误校准。我们将此称为“推理污染效应”。利用这一洞察力,我们引入了一个两阶段自适应steering流程,该流程读取模型的内部准确率估计并steering verbalized输出以匹配它,从而显着改善所有评估模型中的校准对齐。

🔬 方法详解

问题定义:大语言模型在生成答案的同时,会输出一个置信度分数,但这个分数往往与模型的实际准确率不符,即存在校准问题。现有的方法难以有效解决这个问题,因为对模型内部置信度表达的机制理解不足。论文旨在深入理解并解决大语言模型置信度表达不准确的问题。

核心思路:论文的核心思路是,通过机制可解释性分析,揭示verbalized置信度与模型内部准确率估计之间的关系。发现二者虽然都以线性方式编码,但方向正交,且推理过程会干扰置信度表达。基于此,设计自适应steering方法,将verbalized置信度引导到与内部准确率估计对齐的方向。

技术框架:论文提出的两阶段自适应steering流程如下: 1. 内部准确率估计读取:使用线性探针从模型内部提取准确率估计信号。 2. 自适应steering:根据提取的准确率估计信号,调整verbalized输出,使其与内部估计对齐。这个过程利用对比激活添加(CAA)技术,在模型的激活空间中进行steering。

关键创新:论文的关键创新在于: 1. 揭示了verbalized置信度与内部准确率估计之间的正交关系,以及推理过程对置信度表达的干扰(推理污染效应)。 2. 提出了基于内部准确率估计的自适应steering方法,能够有效改善校准。 与现有方法相比,该方法不依赖于外部校准数据集,而是直接在模型内部进行调整。

关键设计: 1. 线性探针:用于从模型内部提取准确率估计信号,通过训练线性分类器来实现。 2. 对比激活添加(CAA):用于在模型的激活空间中进行steering,通过添加或减去特定方向的激活值来改变模型的行为。 3. 自适应系数:steering的强度是自适应的,取决于内部准确率估计与verbalized置信度之间的差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验验证了所提出的自适应steering方法的有效性。在三个开源模型和四个数据集上,该方法均能显著改善校准对齐。具体而言,该方法能够将verbalized置信度更准确地反映模型的实际准确率,从而提升模型在实际应用中的可靠性。

🎯 应用场景

该研究成果可应用于提升大语言模型在各种任务中的可靠性,例如问答系统、文本摘要、代码生成等。通过提高模型置信度与准确率的一致性,可以减少模型产生误导性信息的风险,增强用户对模型的信任度,并促进大语言模型在安全敏感领域的应用。

📄 摘要(原文)

Large language models (LLMs) tend to verbalize confidence scores that are largely detached from their actual accuracy, yet the geometric relationship governing this behavior remain poorly understood. In this work, we present a mechanistic interpretability analysis of verbalized confidence, using linear probes and contrastive activation addition (CAA) steering to show that calibration and verbalized confidence signals are encoded linearly but are orthogonal to one another -- a finding consistent across three open-weight models and four datasets. Interestingly, when models are prompted to simultaneously reason through a problem and verbalize a confidence score, the reasoning process disrupts the verbalized confidence direction, exacerbating miscalibration. We term this the "Reasoning Contamination Effect." Leveraging this insight, we introduce a two-stage adaptive steering pipeline that reads the model's internal accuracy estimate and steers verbalized output to match it, substantially improving calibration alignment across all evaluated models.