Uncertainty Distillation: Teaching Language Models to Express Semantic Confidence

作者: Sophia Hager, David Mueller, Kevin Duh, Nicholas Andrews

分类: cs.CL, cs.LG

发布日期: 2025-03-18 (更新: 2025-12-12)

💡 一句话要点

提出不确定性蒸馏方法，提升语言模型语义置信度表达的校准性。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 语言模型 不确定性量化 置信度校准 语义不确定性 蒸馏训练 监督微调 黑盒模型

📋 核心要点

现有大型语言模型在表达置信度时，其置信度与实际错误率不一致，缺乏有效的不确定性量化。
提出不确定性蒸馏方法，通过监督微调，使语言模型能够表达校准的语义置信度，而非词汇置信度。
实验表明，该方法能有效提升语言模型置信度表达的准确性，且适用于黑盒模型，效率优于现有方法。

📝 摘要（中文）

大型语言模型（LLM）越来越多地应用于事实性问答，因此LLM具备表达答案正确可能性的能力变得至关重要。为了使这些口头表达的不确定性有意义，它们应该反映在所表达的置信度水平上的错误率。然而，当被提示表达置信度时，当前LLM的错误率与其传达的置信度不一致，突出了不确定性量化方法的需求。许多先前的方法计算词汇不确定性，估计模型对其生成的特定字符串的置信度。但在某些情况下，估计语义不确定性，即模型对答案的置信度，而不管其如何表达，可能更有用。我们提出了一种简单的程序，即不确定性蒸馏，以教导LLM表达校准的语义置信度。使用保留数据将初始不确定性估计映射到有意义的概率，我们创建了用口头概率注释的示例，用于监督微调。我们发现，即使与强大的基线相比，我们的方法也能产生与观察到的错误率良好相关的口头置信度，其中一些基线的推理时间要慢二十倍以上。此外，我们证明了我们的方法可以应用于允许基于API进行微调的黑盒模型，从而产生比任何基线都更有效和高效的不确定性估计。

🔬 方法详解

问题定义：现有大型语言模型在事实性问答中，无法准确表达其答案的置信度。模型给出的置信度评分与实际的正确率不匹配，导致用户难以信任模型的输出。现有的方法侧重于词汇不确定性，即模型对其生成特定字符串的置信度，而忽略了语义层面的不确定性。

核心思路：核心思想是通过蒸馏的方式，让模型学习如何将内部的不确定性估计映射到校准的概率表达。具体来说，利用held-out数据集，将模型初始的不确定性估计值与实际的正确率进行关联，从而得到一个映射关系。然后，利用这个映射关系生成带有口头概率标注的训练数据，用于对模型进行监督微调。

技术框架：该方法主要包含以下几个阶段： 1. 初始不确定性估计：使用未微调的LLM对问题进行回答，并获得其初始的不确定性估计值（例如，通过多次采样答案并计算一致性）。 2. 映射关系构建：使用held-out数据集，将初始不确定性估计值与实际的正确率进行关联，构建一个映射关系。 3. 数据标注：利用构建的映射关系，将训练数据标注上口头概率，例如“非常确定”、“可能正确”等。 4. 监督微调：使用标注后的数据对LLM进行监督微调，使其学习如何表达校准的语义置信度。

关键创新：该方法的核心创新在于： 1. 语义不确定性：关注语义层面的不确定性，而非词汇层面的不确定性，更符合实际应用需求。 2. 不确定性蒸馏：通过蒸馏的方式，将held-out数据集中的知识迁移到模型中，使其能够表达校准的置信度。 3. 黑盒适用性：该方法可以应用于黑盒模型，只需要通过API进行微调，降低了使用门槛。

关键设计： 1. 初始不确定性估计方法：可以使用多种方法来估计初始不确定性，例如，多次采样答案并计算一致性，或者使用模型的softmax概率。 2. 映射关系构建方法：可以使用多种方法来构建映射关系，例如，线性回归、非线性回归等。 3. 口头概率标注方法：需要定义一组口头概率，例如“非常确定”、“可能正确”等，并将概率值映射到这些口头概率上。 4. 损失函数：可以使用交叉熵损失函数来训练模型，使其学习如何表达校准的置信度。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法能够显著提升语言模型置信度表达的准确性，即使与推理速度慢20倍的强大基线相比，也能取得更好的效果。此外，该方法还适用于黑盒模型，可以通过API进行微调，降低了使用门槛，使其更易于部署和应用。

🎯 应用场景

该研究成果可广泛应用于需要语言模型提供可靠置信度信息的场景，例如医疗诊断、金融分析、法律咨询等。通过提升模型置信度表达的准确性，可以帮助用户更好地理解和利用模型输出，从而做出更明智的决策。未来，该方法可以进一步扩展到其他自然语言处理任务中，例如文本摘要、机器翻译等。

📄 摘要（原文）

As large language models (LLMs) are increasingly used for factual question-answering, it becomes more important for LLMs to have the capability to communicate the likelihood that their answer is correct. For these verbalized expressions of uncertainty to be meaningful, they should reflect the error rates at the expressed level of confidence. However, when prompted to express confidence, the error rates of current LLMs are inconsistent with their communicated confidences, highlighting the need for uncertainty quantification methods. Many prior methods calculate lexical uncertainty, estimating a model's confidence in the specific string it generated. In some cases, however, it may be more useful to estimate semantic uncertainty, or the model's confidence in the answer regardless of how it is verbalized. We propose a simple procedure, uncertainty distillation, to teach an LLM to verbalize calibrated semantic confidences. Using held-out data to map initial uncertainty estimates to meaningful probabilities, we create examples annotated with verbalized probabilities for supervised fine-tuning. We find that our method yields verbalized confidences that correlate well with observed error rates, even when compared to strong baselines, some of which are more than twenty times slower at inference time. Additionally, we demonstrate that our method can be applied to black-box models that allow API-based fine-tuning, resulting in estimates of uncertainty that are both more effective and more efficient than any of our baselines.

Uncertainty Distillation: Teaching Language Models to Express Semantic Confidence

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理