Direct Confidence Alignment: Aligning Verbalized Confidence with Internal Confidence In Large Language Models
作者: Glenn Zhang, Treasure Mayowa, Jason Fan, Yicheng Fu, Aaron Sandoval, Sean O'Brien, Kevin Zhu
分类: cs.CL
发布日期: 2025-12-12
备注: Accepted at ACL 2025 SRW, 5 pages body, 14 pages total
💡 一句话要点
提出直接置信度对齐(DCA)方法,提升大语言模型内部与外部置信度一致性
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 置信度校准 直接偏好优化 模型可靠性 模型可解释性
📋 核心要点
- 现有大语言模型内部置信度与外部表达的置信度不一致,影响模型校准和可靠性。
- 提出DCA方法,利用直接偏好优化,将模型的外部置信度与内部置信度对齐。
- 实验表明DCA在某些模型上能有效提升置信度对齐,但在其他模型上效果不佳,提示需要更精细的模型感知方法。
📝 摘要(中文)
随着大语言模型(LLM)的广泛应用,生成可信赖和可靠的LLM变得越来越重要。校准旨在通过提高模型置信度与响应正确性或期望性的实际可能性之间的一致性来实现这一目标。然而,观察发现,模型内部置信度(源于token概率)与外部置信度(verbalized confidence)并不一致,导致不同的校准方法产生误导性结果。本文提出直接置信度对齐(DCA)方法,使用直接偏好优化(Direct Preference Optimization)来对齐LLM的外部置信度与内部置信度,而非ground-truth准确率,从而增强模型透明性和可靠性,确保两种置信度度量之间更紧密的对齐。我们在多个开源LLM和各种数据集上评估DCA。为了进一步评估这种对齐,我们还引入了三个新的基于校准误差的指标。结果表明,DCA改进了某些模型架构上的对齐指标,减少了模型置信度表达的不一致性。然而,我们也表明它在其他模型上可能无效,突出了在追求更可解释和可信赖的LLM时,需要更多模型感知的方法。
🔬 方法详解
问题定义:现有大语言模型存在内部置信度(基于token概率)和外部置信度(模型输出的置信度表达)不一致的问题。这种不一致性导致模型校准困难,影响了模型在实际应用中的可靠性和可信度。现有的校准方法通常基于ground-truth准确率,无法直接解决内部和外部置信度不对齐的问题。
核心思路:DCA的核心思路是直接对齐模型的外部置信度与内部置信度,而不是依赖于ground-truth准确率。通过优化模型,使其输出的置信度表达能够更准确地反映其内部的预测概率。这样可以提高模型的可解释性,并使其在实际应用中更加可靠。
技术框架:DCA方法基于直接偏好优化(Direct Preference Optimization, DPO)。DPO是一种无需奖励模型的强化学习方法,可以直接从人类偏好数据中优化策略。DCA利用DPO,将模型的内部置信度作为偏好信号,引导模型学习生成与内部置信度一致的外部置信度表达。整体流程包括:1)收集模型生成的文本及其对应的内部置信度;2)使用DPO训练模型,目标是使模型生成的文本的外部置信度与内部置信度尽可能接近。
关键创新:DCA的关键创新在于直接对齐内部和外部置信度,避免了对ground-truth准确率的依赖。这使得DCA能够更有效地解决置信度不对齐的问题,并提高模型的可解释性。此外,DCA利用DPO进行优化,避免了传统强化学习方法中奖励函数设计的困难。
关键设计:DCA的关键设计包括:1)内部置信度的计算方式:通常使用模型输出的token概率的某种聚合方式,例如平均概率或最大概率。2)DPO的损失函数:DPO的损失函数旨在最大化模型生成的文本的外部置信度与内部置信度之间的相似度。3)模型架构的选择:DCA可以应用于各种大语言模型架构,但不同的架构可能需要不同的参数调整和优化策略。
🖼️ 关键图片
📊 实验亮点
论文在多个开源LLM和数据集上进行了实验,结果表明DCA在某些模型架构上能够有效提高内部和外部置信度的一致性。论文还提出了三个新的基于校准误差的指标,用于评估置信度对齐的效果。实验结果表明,DCA能够降低模型置信度表达的不一致性,但其效果在不同模型上存在差异,提示需要更精细的模型感知方法。
🎯 应用场景
DCA方法可应用于各种需要高可靠性和可信度的大语言模型应用场景,例如医疗诊断、金融风控、法律咨询等。通过提高模型置信度表达的准确性,可以帮助用户更好地理解模型的预测结果,并做出更明智的决策。此外,DCA还可以用于提高模型的鲁棒性,使其在面对对抗性攻击时更加稳定。
📄 摘要(原文)
Producing trustworthy and reliable Large Language Models (LLMs) has become increasingly important as their usage becomes more widespread. Calibration seeks to achieve this by improving the alignment between the model's confidence and the actual likelihood of its responses being correct or desirable. However, it has been observed that the internal confidence of a model, derived from token probabilities, is not well aligned with its verbalized confidence, leading to misleading results with different calibration methods. In this paper, we propose Direct Confidence Alignment (DCA), a method using Direct Preference Optimization to align an LLM's verbalized confidence with its internal confidence rather than ground-truth accuracy, enhancing model transparency and reliability by ensuring closer alignment between the two confidence measures. We evaluate DCA across multiple open-weight LLMs on a wide range of datasets. To further assess this alignment, we also introduce three new calibration error-based metrics. Our results show that DCA improves alignment metrics on certain model architectures, reducing inconsistencies in a model's confidence expression. However, we also show that it can be ineffective on others, highlighting the need for more model-aware approaches in the pursuit of more interpretable and trustworthy LLMs.