Calibrating LLM Confidence by Probing Perturbed Representation Stability

📄 arXiv: 2505.21772v2 📥 PDF

作者: Reza Khanmohammadi, Erfan Miahi, Mehrsa Mardikoraem, Simerjot Kaur, Ivan Brugere, Charese H. Smiley, Kundan Thind, Mohammad M. Ghassemi

分类: cs.CL

发布日期: 2025-05-27 (更新: 2025-09-18)


💡 一句话要点

CCPS:通过探测扰动表征稳定性校准大语言模型置信度

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 置信度校准 表征稳定性 对抗扰动 MMLU基准

📋 核心要点

  1. 大语言模型置信度校准不足,影响了其可靠性,现有方法难以准确估计模型置信度。
  2. CCPS通过对模型隐藏层状态进行扰动,分析模型对扰动的响应,以此评估模型内部表征的稳定性。
  3. 实验表明,CCPS在多个LLM和基准测试中显著优于现有方法,在校准误差和准确率上均有提升。

📝 摘要(中文)

大语言模型(LLM)的校准误差降低了其可靠性,突显了准确置信度估计的需求。我们提出了一种新方法CCPS(通过探测扰动表征稳定性校准LLM置信度),该方法分析LLM内部表征的稳定性。CCPS对最终隐藏状态应用有针对性的对抗扰动,提取反映模型对这些扰动响应的特征,并使用轻量级分类器来预测答案的正确性。CCPS在参数规模从8B到32B的LLM(包括Llama、Qwen和Mistral架构)上,使用MMLU和MMLU-Pro基准,以多项选择和开放式格式进行了评估。结果表明,CCPS显著优于当前的方法。在四个LLM和三个MMLU变体中,相对于最强的前期方法,CCPS将预期校准误差降低了约55%,Brier分数降低了21%,同时将准确率提高了5个百分点,精确率-召回率曲线下面积提高了4个百分点,受试者工作特征曲线下面积提高了6个百分点。CCPS为估计LLM置信度提供了一种高效、广泛适用且更准确的解决方案,从而提高了其可信度。

🔬 方法详解

问题定义:大语言模型(LLM)的置信度校准问题,即模型给出的预测概率与其真实正确率不一致。现有方法通常依赖于模型输出的概率值,但这些概率值往往不可靠,导致模型在实际应用中做出错误的判断。因此,需要一种更准确、更可靠的方法来估计LLM的置信度。

核心思路:CCPS的核心思路是通过分析LLM内部表征的稳定性来估计其置信度。具体来说,该方法对LLM的最终隐藏状态进行有针对性的对抗扰动,然后观察模型对这些扰动的响应。如果模型对扰动的响应较为稳定,则表明模型对当前输入的理解较为深刻,置信度较高;反之,如果模型对扰动的响应较为敏感,则表明模型对当前输入的理解不够充分,置信度较低。

技术框架:CCPS的技术框架主要包括以下几个步骤:1) 对LLM的最终隐藏状态应用有针对性的对抗扰动;2) 提取反映模型对这些扰动响应的特征;3) 使用轻量级分类器,基于提取的特征预测答案的正确性。其中,对抗扰动的生成方式、特征的提取方式以及分类器的选择是影响CCPS性能的关键因素。

关键创新:CCPS最重要的技术创新点在于其利用了LLM内部表征的稳定性来估计置信度。与现有方法相比,CCPS不依赖于模型输出的概率值,而是直接分析模型内部的状态,从而能够更准确地反映模型对当前输入的理解程度。此外,CCPS还采用了一种轻量级分类器,使其能够高效地应用于各种规模的LLM。

关键设计:CCPS的关键设计包括:1) 对抗扰动的生成方式:论文可能采用了特定的对抗攻击算法,例如FGSM或PGD,来生成有针对性的扰动;2) 特征提取方式:论文可能提取了隐藏状态的统计特征(例如均值、方差)或激活模式,来反映模型对扰动的响应;3) 轻量级分类器的选择:论文可能选择了逻辑回归或线性SVM等简单的分类器,以保证计算效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CCPS在多个LLM(Llama、Qwen、Mistral)和MMLU基准测试中取得了显著的性能提升。相对于最强的前期方法,CCPS将预期校准误差降低了约55%,Brier分数降低了21%,同时将准确率提高了5个百分点,精确率-召回率曲线下面积提高了4个百分点,受试者工作特征曲线下面积提高了6个百分点。这些结果表明,CCPS是一种高效、准确且广泛适用的LLM置信度估计方法。

🎯 应用场景

CCPS可应用于各种需要高可靠性的大语言模型应用场景,例如医疗诊断、金融风控、自动驾驶等。通过提高LLM的置信度估计准确性,可以减少模型犯错的概率,从而提高系统的整体安全性与可靠性。此外,CCPS还可以用于评估不同LLM的可靠性,为用户选择合适的模型提供参考。

📄 摘要(原文)

Miscalibration in Large Language Models (LLMs) undermines their reliability, highlighting the need for accurate confidence estimation. We introduce CCPS (Calibrating LLM Confidence by Probing Perturbed Representation Stability), a novel method analyzing internal representational stability in LLMs. CCPS applies targeted adversarial perturbations to final hidden states, extracts features reflecting the model's response to these perturbations, and uses a lightweight classifier to predict answer correctness. CCPS was evaluated on LLMs from 8B to 32B parameters (covering Llama, Qwen, and Mistral architectures) using MMLU and MMLU-Pro benchmarks in both multiple-choice and open-ended formats. Our results show that CCPS significantly outperforms current approaches. Across four LLMs and three MMLU variants, CCPS reduces Expected Calibration Error by approximately 55% and Brier score by 21%, while increasing accuracy by 5 percentage points, Area Under the Precision-Recall Curve by 4 percentage points, and Area Under the Receiver Operating Characteristic Curve by 6 percentage points, all relative to the strongest prior method. CCPS delivers an efficient, broadly applicable, and more accurate solution for estimating LLM confidence, thereby improving their trustworthiness.