BAS: A Decision-Theoretic Approach to Evaluating Large Language Model Confidence
作者: Sean Wu, Fredrik K. Gustafsson, Edward Phillips, Boyan Gao, Anshul Thakur, David A. Clifton
分类: cs.CL
发布日期: 2026-04-06
💡 一句话要点
提出行为对齐分数(BAS)评估LLM置信度,优化决策并避免过度自信。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 置信度评估 决策理论 行为对齐分数 风险偏好
📋 核心要点
- 现有LLM评估方法忽略了置信度在风险决策中的作用,尤其是在需要模型选择放弃回答的场景下。
- 论文提出行为对齐分数(BAS),基于决策理论评估LLM置信度,通过效用模型衡量置信度对决策的帮助程度。
- 实验表明,即使是先进的LLM也存在过度自信问题,且BAS能有效区分具有相似ECE/AURC但置信度不同的模型。
📝 摘要(中文)
大型语言模型(LLM)在需要放弃回答的场景中,经常给出自信但错误的答案。然而,标准评估协议要求必须给出回应,并且没有考虑到在不同风险偏好下,置信度应该如何指导决策。为了解决这个问题,我们引入了行为对齐分数(BAS),这是一种决策理论度量,用于评估LLM置信度对支持放弃感知决策的程度。BAS源于一个明确的回答或放弃效用模型,并在风险阈值的连续统上聚合实现的效用,从而产生一种依赖于置信度的大小和排序的决策级可靠性度量。我们从理论上证明,真实的置信度估计能够唯一地最大化预期BAS效用,从而将校准与决策最优行为联系起来。BAS与诸如log loss之类的适当评分规则相关,但在结构上有所不同:log loss对称地惩罚欠自信和过度自信,而BAS施加了一种非对称的惩罚,强烈优先避免过度自信的错误。我们使用BAS以及诸如ECE和AURC之类的广泛使用的指标,构建了一个跨多个LLM和任务的自我报告置信度可靠性基准。我们的结果表明,决策有用的置信度存在很大差异,并且虽然更大、更准确的模型往往能获得更高的BAS,但即使是前沿模型仍然容易出现严重的过度自信。重要的是,具有相似ECE或AURC的模型由于高度过度自信的错误而可能表现出非常不同的BAS,突出了标准指标的局限性。我们进一步表明,诸如top-$k$置信度提取和事后校准之类的简单干预可以有意义地提高置信度可靠性。总的来说,我们的工作提供了一个原则性的度量和一个全面的基准,用于评估LLM置信度可靠性。
🔬 方法详解
问题定义:现有的大型语言模型评估方法,例如ECE和AURC,虽然能衡量模型的校准程度,但没有直接评估置信度在实际决策中的效用。特别是在需要模型选择“放弃回答”的场景下,模型过度自信的错误会带来更大的损失。因此,如何评估LLM的置信度是否能有效支持决策,避免过度自信的错误,是一个亟待解决的问题。
核心思路:论文的核心思路是基于决策理论,将LLM的置信度视为一种决策信号,并根据不同的风险偏好,评估该信号对决策的帮助程度。具体来说,论文构建了一个“回答或放弃”的效用模型,并根据模型置信度选择回答或放弃,计算在不同风险阈值下的期望效用。通过聚合不同风险阈值下的效用,得到行为对齐分数(BAS),从而衡量置信度与决策行为的对齐程度。
技术框架:BAS的计算框架主要包含以下几个步骤:1) 定义回答或放弃的效用模型,该模型考虑了回答正确、回答错误和放弃回答三种情况下的效用值。2) 根据LLM的置信度,以及预设的风险阈值,决定是回答还是放弃。3) 根据实际情况(回答是否正确),计算实际获得的效用。4) 在不同的风险阈值下重复步骤2和3,并计算平均效用。5) 将不同风险阈值下的平均效用进行积分,得到最终的BAS。
关键创新:论文最重要的创新在于提出了BAS这一决策理论度量,它与传统的校准指标(如ECE和AURC)不同,BAS直接评估置信度在决策中的效用,并能有效区分具有相似ECE/AURC但置信度不同的模型。此外,BAS对过度自信的错误施加了更强的惩罚,更符合实际应用中对风险的考虑。
关键设计:BAS的关键设计在于效用模型的构建和风险阈值的选择。效用模型需要合理地反映不同决策结果的价值,例如,回答正确的效用通常高于放弃回答,而回答错误的效用通常低于放弃回答。风险阈值则决定了模型在多大程度上愿意承担回答错误的风险。论文建议在风险阈值的连续统上进行积分,以获得更全面的评估结果。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使是先进的LLM也存在严重的过度自信问题,且不同模型在BAS上的表现差异显著,表明置信度的决策效用存在很大差异。具有相似ECE或AURC的模型可能表现出非常不同的BAS,突出了标准指标的局限性。通过简单的干预,如top-$k$置信度提取和事后校准,可以显著提高LLM的BAS。
🎯 应用场景
该研究成果可应用于各种需要LLM提供可靠置信度的场景,例如医疗诊断、金融风险评估、自动驾驶等。通过使用BAS评估和优化LLM的置信度,可以提高决策的准确性和安全性,降低因过度自信导致的错误风险。此外,该方法还可以用于指导LLM的训练和校准,使其更好地适应不同的应用场景和风险偏好。
📄 摘要(原文)
Large language models (LLMs) often produce confident but incorrect answers in settings where abstention would be safer. Standard evaluation protocols, however, require a response and do not account for how confidence should guide decisions under different risk preferences. To address this gap, we introduce the Behavioral Alignment Score (BAS), a decision-theoretic metric for evaluating how well LLM confidence supports abstention-aware decision making. BAS is derived from an explicit answer-or-abstain utility model and aggregates realized utility across a continuum of risk thresholds, yielding a measure of decision-level reliability that depends on both the magnitude and ordering of confidence. We show theoretically that truthful confidence estimates uniquely maximize expected BAS utility, linking calibration to decision-optimal behavior. BAS is related to proper scoring rules such as log loss, but differs structurally: log loss penalizes underconfidence and overconfidence symmetrically, whereas BAS imposes an asymmetric penalty that strongly prioritizes avoiding overconfident errors. Using BAS alongside widely used metrics such as ECE and AURC, we then construct a benchmark of self-reported confidence reliability across multiple LLMs and tasks. Our results reveal substantial variation in decision-useful confidence, and while larger and more accurate models tend to achieve higher BAS, even frontier models remain prone to severe overconfidence. Importantly, models with similar ECE or AURC can exhibit very different BAS due to highly overconfident errors, highlighting limitations of standard metrics. We further show that simple interventions, such as top-$k$ confidence elicitation and post-hoc calibration, can meaningfully improve confidence reliability. Overall, our work provides both a principled metric and a comprehensive benchmark for evaluating LLM confidence reliability.