Are LLM Decisions Faithful to Verbal Confidence?

📄 arXiv: 2601.07767v1 📥 PDF

作者: Jiawei Wang, Yanfei Zhou, Siddartha Devic, Deqing Fu

分类: cs.LG, cs.CL

发布日期: 2026-01-12


💡 一句话要点

RiskEval揭示LLM置信度与决策行为脱节问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 置信度校准 风险评估 决策制定 弃权策略

📋 核心要点

  1. 现有LLM虽然能给出置信度,但其与实际决策行为的关联性未知,存在潜在风险。
  2. 论文提出RiskEval框架,通过改变错误惩罚来评估模型是否能策略性地调整弃权行为。
  3. 实验表明,即使在高惩罚下,模型也几乎不弃权,置信度与决策行为脱节,效用显著降低。

📝 摘要(中文)

大型语言模型(LLM)在估计自身不确定性方面表现出惊人的能力。然而,这种表达的置信度与模型的推理、知识或决策制定在多大程度上相关仍然不清楚。为了验证这一点,我们引入了RiskEval:一个旨在评估模型是否会根据不同的错误惩罚调整其弃权策略的框架。我们对几个前沿模型的评估揭示了一个关键的脱节:模型在表达其口头置信度时既没有成本意识,在决定在高惩罚条件下参与还是弃权时也没有策略性反应。即使极端的惩罚使频繁弃权成为数学上最优的策略,模型几乎从不弃权,导致效用崩溃。这表明,校准的口头置信度分数可能不足以创建值得信赖和可解释的AI系统,因为当前的模型缺乏将不确定性信号转化为最优和风险敏感决策的战略能力。

🔬 方法详解

问题定义:现有大型语言模型(LLM)虽然能够输出置信度,但这些置信度是否真实反映了模型的推理过程,并指导其决策,是一个重要的开放问题。特别是在高风险场景下,模型能否根据潜在的错误惩罚来调整其行为(例如选择弃权),对于构建可信赖的AI系统至关重要。现有方法缺乏有效的评估框架来衡量LLM的置信度与决策行为之间的关联性。

核心思路:论文的核心思路是设计一个评估框架,通过改变错误惩罚的力度,观察LLM是否会相应地调整其弃权策略。如果LLM的置信度能够指导其决策,那么在高惩罚下,模型应该更倾向于选择弃权,以避免产生高额损失。反之,如果模型在高惩罚下仍然坚持决策,则表明其置信度与决策行为存在脱节。

技术框架:论文提出了RiskEval框架,该框架包含以下几个关键组成部分:1) 任务定义:选择一系列需要LLM进行决策的任务。2) 惩罚机制:引入可变的错误惩罚,模拟不同风险场景。3) 弃权机制:允许LLM选择弃权,避免在高风险情况下做出错误决策。4) 评估指标:设计指标来衡量LLM的效用,即在考虑错误惩罚和弃权成本的情况下,模型所获得的整体收益。

关键创新:RiskEval框架的关键创新在于其能够系统性地评估LLM的置信度与决策行为之间的关联性。通过引入可变的错误惩罚和弃权机制,RiskEval能够模拟真实世界中的高风险场景,并观察LLM在这些场景下的行为。这为研究LLM的可靠性和可解释性提供了一个新的视角。

关键设计:RiskEval框架的关键设计包括:1) 惩罚力度:需要仔细设计惩罚力度,以确保其能够有效地影响LLM的决策行为。2) 弃权成本:需要考虑弃权本身的成本,以避免模型过度弃权。3) 评估指标:需要设计合理的评估指标,以准确衡量LLM的效用。论文中具体使用了效用函数来量化模型在不同策略下的收益,并以此评估模型是否能够做出风险敏感的决策。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使在高惩罚条件下,主流LLM几乎从不选择弃权,导致效用大幅下降。这表明当前LLM的置信度与决策行为存在严重脱节,无法根据风险进行策略性调整。例如,即使错误惩罚非常高,模型仍然倾向于给出答案,而不是选择弃权,导致整体性能显著降低。

🎯 应用场景

该研究成果可应用于开发更可靠、更值得信赖的AI系统,尤其是在医疗诊断、金融风控等高风险领域。通过评估和改进LLM的置信度校准和风险意识,可以降低AI系统出错的概率,提高其在实际应用中的价值和安全性。未来的研究可以进一步探索如何提高LLM的风险意识和决策能力。

📄 摘要(原文)

Large Language Models (LLMs) can produce surprisingly sophisticated estimates of their own uncertainty. However, it remains unclear to what extent this expressed confidence is tied to the reasoning, knowledge, or decision making of the model. To test this, we introduce $\textbf{RiskEval}$: a framework designed to evaluate whether models adjust their abstention policies in response to varying error penalties. Our evaluation of several frontier models reveals a critical dissociation: models are neither cost-aware when articulating their verbal confidence, nor strategically responsive when deciding whether to engage or abstain under high-penalty conditions. Even when extreme penalties render frequent abstention the mathematically optimal strategy, models almost never abstain, resulting in utility collapse. This indicates that calibrated verbal confidence scores may not be sufficient to create trustworthy and interpretable AI systems, as current models lack the strategic agency to convert uncertainty signals into optimal and risk-sensitive decisions.