Calibrating LLM Confidence by Probing Perturbed Representation Stability

作者: Reza Khanmohammadi, Erfan Miahi, Mehrsa Mardikoraem, Simerjot Kaur, Ivan Brugere, Charese H. Smiley, Kundan Thind, Mohammad M. Ghassemi

分类: cs.CL

发布日期: 2025-05-27 (更新: 2025-09-18)

💡 一句话要点

CCPS：通过探测扰动表征稳定性校准大语言模型置信度

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 置信度校准 表征稳定性 对抗扰动 MMLU基准

📋 核心要点

大语言模型置信度校准不足，影响了其可靠性，现有方法难以准确估计模型置信度。
CCPS通过对模型隐藏层状态进行扰动，分析模型对扰动的响应，以此评估模型内部表征的稳定性。
实验表明，CCPS在多个LLM和基准测试中显著优于现有方法，在校准误差和准确率上均有提升。

📝 摘要（中文）

大语言模型（LLM）的校准误差降低了其可靠性，突显了准确置信度估计的需求。我们提出了一种新方法CCPS（通过探测扰动表征稳定性校准LLM置信度），该方法分析LLM内部表征的稳定性。CCPS对最终隐藏状态应用有针对性的对抗扰动，提取反映模型对这些扰动响应的特征，并使用轻量级分类器来预测答案的正确性。CCPS在参数规模从8B到32B的LLM（包括Llama、Qwen和Mistral架构）上，使用MMLU和MMLU-Pro基准，以多项选择和开放式格式进行了评估。结果表明，CCPS显著优于当前的方法。在四个LLM和三个MMLU变体中，相对于最强的前期方法，CCPS将预期校准误差降低了约55%，Brier分数降低了21%，同时将准确率提高了5个百分点，精确率-召回率曲线下面积提高了4个百分点，受试者工作特征曲线下面积提高了6个百分点。CCPS为估计LLM置信度提供了一种高效、广泛适用且更准确的解决方案，从而提高了其可信度。

🔬 方法详解

问题定义：大语言模型（LLM）的置信度校准问题，即模型给出的预测概率与其真实正确率不一致。现有方法通常依赖于模型输出的概率值，但这些概率值往往不可靠，导致模型在实际应用中做出错误的判断。因此，需要一种更准确、更可靠的方法来估计LLM的置信度。

核心思路：CCPS的核心思路是通过分析LLM内部表征的稳定性来估计其置信度。具体来说，该方法对LLM的最终隐藏状态进行有针对性的对抗扰动，然后观察模型对这些扰动的响应。如果模型对扰动的响应较为稳定，则表明模型对当前输入的理解较为深刻，置信度较高；反之，如果模型对扰动的响应较为敏感，则表明模型对当前输入的理解不够充分，置信度较低。

技术框架：CCPS的技术框架主要包括以下几个步骤：1) 对LLM的最终隐藏状态应用有针对性的对抗扰动；2) 提取反映模型对这些扰动响应的特征；3) 使用轻量级分类器，基于提取的特征预测答案的正确性。其中，对抗扰动的生成方式、特征的提取方式以及分类器的选择是影响CCPS性能的关键因素。

关键创新：CCPS最重要的技术创新点在于其利用了LLM内部表征的稳定性来估计置信度。与现有方法相比，CCPS不依赖于模型输出的概率值，而是直接分析模型内部的状态，从而能够更准确地反映模型对当前输入的理解程度。此外，CCPS还采用了一种轻量级分类器，使其能够高效地应用于各种规模的LLM。

关键设计：CCPS的关键设计包括：1) 对抗扰动的生成方式：论文可能采用了特定的对抗攻击算法，例如FGSM或PGD，来生成有针对性的扰动；2) 特征提取方式：论文可能提取了隐藏状态的统计特征（例如均值、方差）或激活模式，来反映模型对扰动的响应；3) 轻量级分类器的选择：论文可能选择了逻辑回归或线性SVM等简单的分类器，以保证计算效率。

🖼️ 关键图片

📊 实验亮点

CCPS在多个LLM（Llama、Qwen、Mistral）和MMLU基准测试中取得了显著的性能提升。相对于最强的前期方法，CCPS将预期校准误差降低了约55%，Brier分数降低了21%，同时将准确率提高了5个百分点，精确率-召回率曲线下面积提高了4个百分点，受试者工作特征曲线下面积提高了6个百分点。这些结果表明，CCPS是一种高效、准确且广泛适用的LLM置信度估计方法。

🎯 应用场景

CCPS可应用于各种需要高可靠性的大语言模型应用场景，例如医疗诊断、金融风控、自动驾驶等。通过提高LLM的置信度估计准确性，可以减少模型犯错的概率，从而提高系统的整体安全性与可靠性。此外，CCPS还可以用于评估不同LLM的可靠性，为用户选择合适的模型提供参考。

📄 摘要（原文）

Miscalibration in Large Language Models (LLMs) undermines their reliability, highlighting the need for accurate confidence estimation. We introduce CCPS (Calibrating LLM Confidence by Probing Perturbed Representation Stability), a novel method analyzing internal representational stability in LLMs. CCPS applies targeted adversarial perturbations to final hidden states, extracts features reflecting the model's response to these perturbations, and uses a lightweight classifier to predict answer correctness. CCPS was evaluated on LLMs from 8B to 32B parameters (covering Llama, Qwen, and Mistral architectures) using MMLU and MMLU-Pro benchmarks in both multiple-choice and open-ended formats. Our results show that CCPS significantly outperforms current approaches. Across four LLMs and three MMLU variants, CCPS reduces Expected Calibration Error by approximately 55% and Brier score by 21%, while increasing accuracy by 5 percentage points, Area Under the Precision-Recall Curve by 4 percentage points, and Area Under the Receiver Operating Characteristic Curve by 6 percentage points, all relative to the strongest prior method. CCPS delivers an efficient, broadly applicable, and more accurate solution for estimating LLM confidence, thereby improving their trustworthiness.

Calibrating LLM Confidence by Probing Perturbed Representation Stability

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理