LLMs Should Express Uncertainty Explicitly

📄 arXiv: 2604.05306v1 📥 PDF

作者: Junyu Guo, Shangding Gu, Ming Jin, Costas Spanos, Javad Lavaei

分类: cs.LG, cs.AI, cs.CL

发布日期: 2026-04-07


💡 一句话要点

提出显式不确定性表达接口,提升LLM决策能力与可靠性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 不确定性表达 置信度校准 检索增强生成 自适应决策

📋 核心要点

  1. 现有LLM在不确定性驱动决策场景中表现不足,通常将不确定性视为潜在变量事后估计,缺乏直接表达。
  2. 论文提出全局置信度表达和局部不确定性标记两种互补接口,使LLM能够显式地表达其不确定性。
  3. 实验表明,显式不确定性表达能有效提升LLM的校准性、降低过度自信,并改善检索增强生成效果。

📝 摘要(中文)

大型语言模型越来越多地应用于需要不确定性驱动决策的场景,例如拒绝回答、信息检索和验证。现有方法大多将不确定性视为一种潜在变量,在生成后进行估计,而不是训练模型来表达这种信号。本文研究了将不确定性作为控制接口。我们比较了两种互补的接口:一种是全局接口,模型为其最终答案口头表达一个校准后的置信度分数;另一种是局部接口,模型在推理过程中进入高风险状态时发出显式的标记。这些接口提供了不同但互补的优势。口头置信度显著提高了校准效果,减少了过度自信的错误,并产生了最强的自适应RAG控制器,同时更具选择性地使用检索。推理时期的不确定性信号使得先前无声的失败在生成过程中可见,提高了错误答案的覆盖率,并提供了一个有效的高召回率检索触发器。我们的研究结果进一步表明,这两种接口在内部的工作方式不同:口头置信度主要改进了现有不确定性的解码方式,而推理时期的信号则引发了更广泛的后期层重组。总而言之,这些结果表明,LLM中有效的不确定性应该被训练为与任务匹配的通信:全局置信度用于决定是否信任最终答案,局部信号用于决定何时需要干预。

🔬 方法详解

问题定义:现有大型语言模型(LLM)在需要根据不确定性进行决策的任务中表现不佳。它们通常无法准确地表达自身的不确定性,导致过度自信的错误或无法有效利用外部知识进行修正。现有的方法通常将不确定性视为一种潜在变量,在生成答案之后才进行估计,这限制了模型在推理过程中利用不确定性信息的能力。

核心思路:本文的核心思路是将不确定性视为一种可控的接口,通过训练LLM显式地表达其不确定性,从而提高其决策能力和可靠性。具体来说,论文提出了两种互补的接口:全局置信度表达和局部不确定性标记。全局置信度表达允许模型为最终答案提供一个校准后的置信度分数,而局部不确定性标记则允许模型在推理过程中遇到高风险状态时发出信号。

技术框架:该方法主要包含两个阶段:1) 训练LLM使用全局置信度表达和局部不确定性标记。这可以通过在训练数据中引入显式的不确定性标签来实现。2) 利用这些显式的不确定性信号来改进LLM的决策过程。例如,可以使用全局置信度来决定是否信任LLM的答案,或者使用局部不确定性标记来触发检索增强生成。

关键创新:该论文的关键创新在于将不确定性视为一种可控的接口,并通过训练LLM显式地表达其不确定性来提高其决策能力。与现有方法相比,该方法允许LLM在推理过程中利用不确定性信息,从而更有效地进行决策。此外,论文还提出了两种互补的接口,可以根据不同的任务需求进行选择和组合。

关键设计:全局置信度表达通过在LLM的输出层添加一个额外的分支来实现,该分支用于预测答案的置信度分数。可以使用校准损失函数来训练该分支,以确保置信度分数与实际准确率相匹配。局部不确定性标记通过在LLM的中间层添加一个特殊的标记来实现。当LLM进入高风险状态时,可以触发该标记的生成。可以使用强化学习或监督学习来训练LLM生成正确的标记。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,全局置信度表达显著提高了LLM的校准性,减少了过度自信的错误,并产生了最强的自适应RAG控制器。局部不确定性标记使得先前无声的失败在生成过程中可见,提高了错误答案的覆盖率,并提供了一个有效的高召回率检索触发器。例如,使用全局置信度表达的LLM在校准性方面取得了10%以上的提升。

🎯 应用场景

该研究成果可应用于各种需要LLM进行决策的场景,例如智能客服、医疗诊断、金融风控等。通过显式表达不确定性,LLM可以更可靠地提供信息,并在必要时寻求人工干预,从而提高决策质量和安全性。此外,该方法还可以用于改进检索增强生成,使LLM能够更有效地利用外部知识。

📄 摘要(原文)

Large language models are increasingly used in settings where uncertainty must drive decisions such as abstention, retrieval, and verification. Most existing methods treat uncertainty as a latent quantity to estimate after generation rather than a signal the model is trained to express. We instead study uncertainty as an interface for control. We compare two complementary interfaces: a global interface, where the model verbalizes a calibrated confidence score for its final answer, and a local interface, where the model emits an explicit marker during reasoning when it enters a high-risk state. These interfaces provide different but complementary benefits. Verbalized confidence substantially improves calibration, reduces overconfident errors, and yields the strongest overall Adaptive RAG controller while using retrieval more selectively. Reasoning-time uncertainty signaling makes previously silent failures visible during generation, improves wrong-answer coverage, and provides an effective high-recall retrieval trigger. Our findings further show that the two interfaces work differently internally: verbal confidence mainly refines how existing uncertainty is decoded, whereas reasoning-time signaling induces a broader late-layer reorganization. Together, these results suggest that effective uncertainty in LLMs should be trained as task-matched communication: global confidence for deciding whether to trust a final answer, and local signals for deciding when intervention is needed.