I-CALM: Incentivizing Confidence-Aware Abstention for LLM Hallucination Mitigation

📄 arXiv: 2604.03904 📥 PDF

作者: Haotian Zong, Binze Li, Yufei Long, Sinyin Chang, Jialong Wu, Gillian K. Hadfield

分类: cs.CL, cs.AI

发布日期: 2026-04-07


💡 一句话要点

I-CALM框架通过激励置信度感知的回避机制缓解LLM幻觉问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 幻觉缓解 提示工程 置信度感知 认知回避

📋 核心要点

  1. LLM常在不确定的情况下给出自信但错误的回答,现有评分机制鼓励回答而非表达不确定性。
  2. I-CALM框架通过提示工程,激励模型在不确定时选择回避,并融入规范原则以提升模型谦逊性。
  3. 实验表明,I-CALM能有效降低错误答案率,通过将易错案例转移到回避来提高回答可靠性。

📝 摘要(中文)

大型语言模型(LLMs)经常产生自信但错误的答案,部分原因是常见的二元评分机制奖励回答而非诚实地表达不确定性。本文研究了仅通过提示的干预——明确宣布回答与回避决策的奖励方案,加上以谦逊为导向的规范原则——是否可以在不修改模型的情况下降低幻觉风险。我们的重点是针对具有可验证答案的事实性问题进行认知回避,当前LLMs即使对其答案不确定,也常常无法回避。我们首先评估自我报告的口头置信度作为可用的不确定性信号,表明其在提示释义下具有稳定性,并且相对于token概率基线具有合理的校准。然后,我们研究I-CALM,这是一个基于提示的框架,它(i)引出口头置信度,(ii)通过明确的奖励方案部分奖励回避,以及(iii)添加轻量级的规范原则,强调真实性、谦逊和责任。在PopQA上使用GPT-5 mini作为主要设置,我们发现引出置信度、奖励回避的提示,特别是带有规范的提示,主要通过识别易出错的案例并将其转移到回避,以及重新校准其置信度,从而降低了已回答案例的错误答案率。这牺牲了覆盖率来换取可靠性,同时使强制回答的性能基本保持不变。改变回避奖励会产生明显的回避-幻觉边界。总的来说,结果表明该框架可以在不重新训练的情况下改进对事实性问题的选择性回答,效果的大小因模型和数据集而异。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在回答事实性问题时,即使不确定也倾向于给出自信但错误的答案(即幻觉)的问题。现有方法通常侧重于模型训练或微调,而忽略了通过简单的提示工程来改善模型行为的可能性。现有的二元评分机制鼓励模型回答问题,即使模型本身对答案的置信度不高。

核心思路:论文的核心思路是通过设计合适的提示,显式地激励模型在不确定时选择“回避”(abstain),而不是强行给出一个可能错误的答案。同时,通过引入规范原则(如强调真实性、谦逊和责任),引导模型更加谨慎地表达自己的置信度。这种方法旨在利用模型自身的不确定性信号,提高回答的可靠性。

技术框架:I-CALM框架包含三个主要组成部分:(1) 置信度引出:通过提示词引导模型报告其对答案的置信度;(2) 回避奖励:设计奖励方案,对模型选择回避的行为给予部分奖励,从而鼓励模型在不确定时选择回避;(3) 规范原则:在提示中加入强调真实性、谦逊和责任的规范原则,引导模型更加谨慎地表达自己的置信度。整体流程是,首先向模型提出问题,然后通过提示词引出模型对答案的置信度,接着根据置信度和预设的奖励方案,模型可以选择回答问题或选择回避。

关键创新:该论文的关键创新在于提出了一种基于提示工程的、无需修改模型参数的幻觉缓解方法。与传统的模型训练或微调方法不同,I-CALM框架通过简单的提示设计,就能有效地改善模型在回答事实性问题时的行为。此外,该框架还创新性地将置信度引出、回避奖励和规范原则结合起来,形成一个完整的解决方案。

关键设计:I-CALM框架的关键设计包括:(1) 置信度引出方式:论文研究了不同的置信度引出方式,例如直接询问模型“你对你的答案有多自信?”;(2) 回避奖励方案:论文设计了不同的奖励方案,例如对回避给予固定奖励,或者根据模型的置信度给予不同的奖励;(3) 规范原则的表达方式:论文尝试了不同的规范原则表达方式,例如使用不同的词语来强调真实性、谦逊和责任。论文通过实验分析了这些设计选择对模型性能的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在PopQA数据集上,使用GPT-5 mini模型进行实验,结果表明I-CALM框架能够显著降低错误答案率。通过引入置信度引出、回避奖励和规范原则,模型能够更准确地识别易错案例并选择回避,从而提高回答的可靠性。实验还发现,改变回避奖励会产生明显的回避-幻觉边界,为调整模型行为提供了依据。

🎯 应用场景

I-CALM框架可应用于各种需要LLM提供可靠答案的场景,例如问答系统、信息检索、医疗诊断辅助等。通过降低LLM的幻觉风险,可以提高这些系统的准确性和可信度。该研究为LLM的prompt工程提供了新的思路,有助于开发更安全、更可靠的LLM应用。

📄 摘要(原文)

Large language models (LLMs) frequently produce confident but incorrect answers, partly because common binary scoring conventions reward answering over honestly expressing uncertainty. We study whether prompt-only interventions -- explicitly announcing reward schemes for answer-versus-abstain decisions plus humility-oriented normative principles -- can reduce hallucination risk without modifying the model. Our focus is epistemic abstention on factual questions with a verifiable answer, where current LLMs often fail to abstain despite being uncertain about their answers. We first assess self-reported verbal confidence as a usable uncertainty signal, showing stability under prompt paraphrasing and reasonable calibration against a token-probability baseline. We then study I-CALM, a prompt-based framework that (i) elicits verbal confidence, (ii) partially rewards abstention through explicit reward schemes, and (iii) adds lightweight normative principles emphasizing truthfulness, humility, and responsibility. Using GPT-5 mini on PopQA as the main setting, we find that confidence-eliciting, abstention-rewarding prompts, especially with norms, reduce the false-answer rate on answered cases mainly by identifying and shifting error-prone cases to abstention and re-calibrating their confidence. This trades coverage for reliability while leaving forced-answer performance largely unchanged. Varying the abstention reward yields a clear abstention-hallucination frontier. Overall, results show the framework can improve selective answering on factual questions without retraining, with the magnitude of effect varying across models and datasets. Code is available at the followingthis https URL.