Trusted Uncertainty in Large Language Models: A Unified Framework for Confidence Calibration and Risk-Controlled Refusal

作者: Markus Oehri, Giulia Conti, Kaviraj Pather, Alexandre Rossi, Laia Serra, Adrian Parody, Rogvi Johannesen, Aviaja Petersen, Arben Krasniqi

分类: cs.CL

发布日期: 2025-09-01 (更新: 2025-12-29)

备注: 10 pages, 5 figures

💡 一句话要点

提出UniCR框架，通过校准不确定性证据实现大语言模型风险可控的拒绝回答。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 不确定性量化 置信度校准 风险控制 拒绝回答 共形预测 长文本生成

📋 核心要点

现有大语言模型缺乏有效的不确定性量化方法，难以判断何时应该拒绝回答。
UniCR框架融合多种不确定性证据，校准为置信度，并根据用户设定的风险预算进行拒绝回答。
实验表明，UniCR在多个任务上提升了校准性能，降低了风险-覆盖率曲线，提高了固定风险下的覆盖率。

📝 摘要（中文）

本文提出UniCR，一个统一的框架，它将异构的不确定性证据（包括序列似然、自洽性差异、检索兼容性以及工具或验证器反馈）转化为校准后的正确概率，并通过原则性的拒绝回答来强制执行用户指定的误差预算。UniCR学习一个轻量级的校准头，采用温度缩放和适当的评分方法，通过黑盒特征支持仅API模型，并使用共形风险控制提供无分布保证。对于长文本生成，我们通过监督从检索证据中获得的原子事实性分数，将置信度与语义保真度对齐，从而减少自信的幻觉，同时保持覆盖率。在短文本问答、代码生成（带有执行测试）和检索增强的长文本问答上的实验表明，与熵或logit阈值、事后校准器和端到端选择性基线相比，在校准指标上有一致的改进，风险-覆盖率曲线下的面积更小，并且在固定风险下覆盖率更高。分析表明，证据矛盾、语义差异和工具不一致是拒绝回答的主要驱动因素，从而产生信息丰富的面向用户的拒绝消息。最终结果是一个可移植的配方，将证据融合到校准概率，再到风险控制的决策，从而提高可信度，而无需微调基础模型，并且在分布偏移下仍然有效。

🔬 方法详解

问题定义：大语言模型在实际部署中，不仅需要生成答案，更需要判断何时不应该回答，即进行风险可控的拒绝回答。现有方法通常依赖于简单的阈值判断，或者事后校准，无法有效利用多种不确定性证据，且难以保证在分布偏移下的性能。

核心思路：UniCR的核心思路是将多种异构的不确定性证据（如序列似然、自洽性、检索兼容性等）融合起来，通过一个轻量级的校准头，将其转化为校准后的正确概率。然后，根据用户设定的风险预算，利用共形风险控制方法，决定何时拒绝回答。这样可以在保证风险的前提下，尽可能提高覆盖率。

技术框架：UniCR框架主要包含以下几个模块：1) 不确定性证据提取：从模型输出、检索结果、工具反馈等来源提取多种不确定性证据。2) 校准头学习：学习一个轻量级的校准头，将异构的证据融合为校准后的置信度。校准头采用温度缩放和适当的评分方法。3) 风险控制：利用共形风险控制方法，根据用户设定的风险预算，决定何时拒绝回答。

关键创新：UniCR的关键创新在于：1) 统一的框架：能够融合多种异构的不确定性证据，并将其转化为校准后的置信度。2) 轻量级的校准头：无需微调基础模型，即可实现有效的校准。3) 共形风险控制：提供无分布保证，即使在分布偏移下也能保持性能。

关键设计：校准头采用温度缩放和适当的评分方法，损失函数包括校准损失和覆盖率损失。共形风险控制方法利用历史数据估计风险，并根据用户设定的风险预算，动态调整拒绝回答的阈值。对于长文本生成，使用原子事实性分数作为监督信号，以对齐置信度与语义保真度。

🖼️ 关键图片

📊 实验亮点

实验结果表明，UniCR在短文本问答、代码生成和检索增强的长文本问答等任务上，相比于现有方法，在校准指标上有一致的改进，风险-覆盖率曲线下的面积更小，并且在固定风险下覆盖率更高。例如，在长文本问答任务中，UniCR能够有效减少自信的幻觉，同时保持较高的覆盖率。

🎯 应用场景

UniCR框架可应用于各种需要高可靠性的大语言模型应用场景，例如医疗诊断、金融风控、法律咨询等。通过风险可控的拒绝回答，可以避免模型在不确定情况下给出错误答案，从而提高系统的整体安全性与可信度。该框架还可用于提升代码生成工具的可靠性，以及改进检索增强的问答系统。

📄 摘要（原文）

Deployed language models must decide not only what to answer but also when not to answer. We present UniCR, a unified framework that turns heterogeneous uncertainty evidence including sequence likelihoods, self-consistency dispersion, retrieval compatibility, and tool or verifier feedback into a calibrated probability of correctness and then enforces a user-specified error budget via principled refusal. UniCR learns a lightweight calibration head with temperature scaling and proper scoring, supports API-only models through black-box features, and offers distribution-free guarantees using conformal risk control. For long-form generation, we align confidence with semantic fidelity by supervising on atomic factuality scores derived from retrieved evidence, reducing confident hallucinations while preserving coverage. Experiments on short-form QA, code generation with execution tests, and retrieval-augmented long-form QA show consistent improvements in calibration metrics, lower area under the risk-coverage curve, and higher coverage at fixed risk compared to entropy or logit thresholds, post-hoc calibrators, and end-to-end selective baselines. Analyses reveal that evidence contradiction, semantic dispersion, and tool inconsistency are the dominant drivers of abstention, yielding informative user-facing refusal messages. The result is a portable recipe of evidence fusion to calibrated probability to risk-controlled decision that improves trustworthiness without fine-tuning the base model and remains valid under distribution shift.

Trusted Uncertainty in Large Language Models: A Unified Framework for Confidence Calibration and Risk-Controlled Refusal

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理