ORCE: Order-Aware Alignment of Verbalized Confidence in Large Language Models

作者: Chen Li, Xiaoling Hu, Songzhu Zheng, Jiawei Zhou, Chao Chen

分类: cs.LG, cs.CL

发布日期: 2026-05-12

备注: 18 pages, 2 figures

💡 一句话要点

ORCE：提出一种顺序感知的大语言模型置信度校准框架，提升可靠性。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 置信度校准 口头置信度 解耦框架 强化学习

📋 核心要点

大型语言模型常在错误回答时表现出高置信度，口头置信度校准至关重要。
提出解耦框架ORCE，先生成答案再估计置信度，避免干扰答案生成。
实验表明，ORCE在保持答案准确性的同时，提升了校准和失败预测性能。

📝 摘要（中文）

大型语言模型（LLMs）即使在给出错误答案时也常常表现出很高的确定性，因此，可靠的置信度估计对于在实际场景中的部署至关重要。口头置信度，即模型用自然语言明确表达其置信度，提供了一种灵活且面向用户的不确定性信号，即使在token logits不可用的情况下也可以应用。然而，现有的口头置信度方法通常联合优化答案生成和置信度生成，这可能导致置信度对齐目标干扰答案的准确性。本文提出了一种解耦且顺序感知的口头置信度校准框架。我们的方法首先生成答案，然后根据固定的问题-答案对估计置信度，从而允许在不直接扰乱答案生成过程的情况下进行置信度优化。为了使置信度与正确性概率对齐，我们从多个模型补全中构建一个基于采样的替代模型，并优化基于排序的强化学习目标，以鼓励具有更高估计正确性概率的响应获得更高的口头置信度。在推理和知识密集型基准上的实验表明，我们的方法提高了校准和失败预测性能，同时在很大程度上保持了答案的准确性。这些结果表明，通过将置信度估计与答案生成分离并优化响应之间置信度的相对排序，可以更可靠地对齐口头置信度。

🔬 方法详解

问题定义：现有的大语言模型在生成答案时，即使答案是错误的，也经常会给出很高的置信度。这种不准确的置信度估计会严重影响模型在实际应用中的可靠性。现有的口头置信度方法通常将答案生成和置信度生成耦合在一起优化，导致置信度校准的目标会干扰到答案的准确性，难以同时保证两者。

核心思路：本文的核心思路是将答案生成和置信度估计解耦。首先，模型生成一个答案；然后，基于这个固定的问题-答案对，模型再估计置信度。这样，置信度的优化就不会直接影响到答案的生成过程，从而避免了两者之间的相互干扰。此外，论文还强调了“顺序感知”，即模型需要能够区分不同答案的置信度高低，并给出相应的排序。

技术框架：ORCE框架主要包含两个阶段：1) 答案生成阶段：使用标准的大语言模型生成答案。2) 置信度估计阶段：基于问题和生成的答案，模型生成一个口头置信度。为了训练置信度估计器，论文使用了一种基于采样的替代模型，通过多次采样生成多个答案，并估计每个答案的正确性概率。然后，使用基于排序的强化学习目标来优化置信度估计器，使得正确性概率高的答案获得更高的口头置信度。

关键创新：该论文的关键创新在于将答案生成和置信度估计解耦，并引入了顺序感知的置信度校准方法。与现有方法相比，ORCE避免了置信度校准对答案生成过程的直接干扰，从而能够更有效地提高置信度估计的准确性。此外，基于排序的强化学习目标能够更好地捕捉不同答案之间的置信度差异。

关键设计：论文使用采样方法构建替代模型，通过多次采样生成多个答案，并使用某种方式（例如，人工标注或使用其他模型）估计每个答案的正确性概率。然后，使用基于排序的强化学习损失函数来优化置信度估计器。具体来说，损失函数的目标是使得正确性概率高的答案的口头置信度高于正确性概率低的答案。论文中可能还涉及到一些超参数的设置，例如采样次数、强化学习的奖励函数等，但具体细节未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，ORCE方法在推理和知识密集型基准测试中，显著提高了置信度校准和失败预测的性能，同时保持了答案的准确性。具体的性能数据和对比基线未知，但论文强调了ORCE在提高置信度估计可靠性方面的有效性。

🎯 应用场景

该研究成果可应用于各种需要可靠置信度估计的场景，例如问答系统、对话机器人、医疗诊断辅助等。通过提高大语言模型的置信度校准水平，可以提升模型在实际应用中的可靠性和安全性，减少因错误判断而造成的损失。未来，该方法可以进一步扩展到其他类型的不确定性估计任务中，例如检测模型的对抗攻击。

📄 摘要（原文）

Large language models (LLMs) often produce answers with high certainty even when they are incorrect, making reliable confidence estimation essential for deployment in real-world scenarios. Verbalized confidence, where models explicitly state their confidence in natural language, provides a flexible and user-facing uncertainty signal that can be applied even when token logits are unavailable. However, existing verbalized-confidence methods often optimize answer generation and confidence generation jointly, which can cause confidence-alignment objectives to interfere with answer accuracy. In this work, we propose a decoupled and order-aware framework for verbalized confidence calibration. Our method first generates an answer and then estimates confidence conditioned on the fixed question--answer pair, allowing confidence optimization without directly perturbing the answer-generation process. To align confidence with correctness likelihood, we construct a sampling-based surrogate from multiple model completions and optimize rank-based reinforcement learning objectives that encourage responses with higher estimated correctness likelihood to receive higher verbalized confidence. Experiments on reasoning and knowledge-intensive benchmarks show that our method improves calibration and failure prediction performance while largely preserving answer accuracy. These results demonstrate that verbalized confidence can be more reliably aligned by decoupling confidence estimation from answer generation and optimizing the relative ordering of confidence across responses.

ORCE: Order-Aware Alignment of Verbalized Confidence in Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理