How Overconfidence in Initial Choices and Underconfidence Under Criticism Modulate Change of Mind in Large Language Models

📄 arXiv: 2507.03120v1 📥 PDF

作者: Dharshan Kumaran, Stephen M Fleming, Larisa Markeeva, Joe Heyward, Andrea Banino, Mrinal Mathur, Razvan Pascanu, Simon Osindero, Benedetto de Martino, Petar Velickovic, Viorica Patraucean

分类: cs.LG, cs.AI

发布日期: 2025-07-03

备注: 41 pages


💡 一句话要点

揭示大语言模型中过度自信与批评下的信心不足如何调节思维转变

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 置信度估计 思维转变 选择支持偏差 贝叶斯更新 认知偏差 实验范式

📋 核心要点

  1. 大型语言模型在初始回答中表现出过度自信,但受到批评时又容易产生过度怀疑,这种矛盾行为是研究的核心问题。
  2. 论文提出一种新颖的实验范式,利用LLM的独特能力,在不产生记忆的情况下获取置信度估计,研究其思维转变机制。
  3. 实验结果表明,LLM存在选择支持偏差,强化对初始答案的置信度,且对不一致的建议过度敏感,偏离贝叶斯更新。

📝 摘要(中文)

大型语言模型(LLMs)表现出引人注目的矛盾行为:它们在最初的答案中可能显得异常自信,但同时在受到质疑时又容易产生过度怀疑。为了研究这种明显的悖论,我们开发了一种新颖的实验范式,利用LLMs的独特能力来获取置信度估计,而不会产生对其初始判断的记忆——这在人类参与者中是不可能的。我们表明,LLMs——Gemma 3、GPT4o和o1-preview——表现出明显的选择支持偏差,这种偏差会强化并提高它们对其答案的置信度估计,从而导致对改变主意的显著抵抗。我们进一步证明,LLMs对不一致的建议的重视程度明显高于一致的建议,其方式与规范的贝叶斯更新存在质的偏差。最后,我们证明了这两种机制——保持与先前承诺一致的驱动力和对矛盾反馈的过度敏感——可以简约地捕捉LLM在不同领域的行为。总之,这些发现为LLM的置信度提供了一种机制性的解释,既解释了它们的固执,也解释了它们对批评的过度敏感。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在面对质疑时表现出的矛盾行为:一方面,它们在初始回答时显得过度自信;另一方面,当受到批评或挑战时,又表现出过度怀疑。现有方法难以直接研究这种现象,因为无法在人类实验中消除记忆对初始判断的影响。

核心思路:论文的核心思路是利用LLMs的独特优势,即可以获取置信度估计而无需记忆初始判断。通过设计特定的实验范式,研究LLMs在接收到一致或不一致的反馈后,如何调整其置信度以及是否改变主意。这种方法能够更清晰地揭示LLMs的内在决策机制。

技术框架:论文构建了一个实验框架,主要包含以下几个阶段:1) 向LLM提出问题并获得初始答案和置信度估计;2) 向LLM提供一致或不一致的反馈(建议);3) 再次要求LLM给出答案和置信度估计,并观察其是否改变主意。通过分析LLM在不同反馈条件下的行为,研究其置信度更新和决策过程。

关键创新:论文的关键创新在于实验范式的设计,它允许研究人员在没有记忆干扰的情况下,直接观察LLMs的置信度变化和决策过程。此外,论文还发现LLMs存在选择支持偏差,即倾向于强化对初始选择的置信度,以及对不一致反馈的过度敏感,这与规范的贝叶斯更新存在偏差。

关键设计:论文使用了Gemma 3、GPT4o和o1-preview等多个LLMs进行实验。反馈的形式是提供与初始答案一致或不一致的建议。通过比较不同反馈条件下LLMs的置信度变化和改变主意的概率,分析其决策机制。具体的技术细节包括如何量化置信度、如何设计一致和不一致的反馈,以及如何统计和分析实验数据。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLMs表现出显著的选择支持偏差,倾向于强化对初始答案的置信度。同时,LLMs对不一致的建议的重视程度远高于一致的建议,与贝叶斯更新存在显著偏差。这些发现揭示了LLMs在决策过程中存在的认知偏差,为改进LLMs的置信度校准和决策机制提供了重要依据。

🎯 应用场景

该研究成果可应用于提升LLMs的可靠性和鲁棒性。通过理解LLMs的置信度机制,可以设计更有效的干预策略,减少其过度自信或过度怀疑的行为,从而提高其在实际应用中的表现,例如在问答系统、对话机器人和决策支持系统等领域。

📄 摘要(原文)

Large language models (LLMs) exhibit strikingly conflicting behaviors: they can appear steadfastly overconfident in their initial answers whilst at the same time being prone to excessive doubt when challenged. To investigate this apparent paradox, we developed a novel experimental paradigm, exploiting the unique ability to obtain confidence estimates from LLMs without creating memory of their initial judgments -- something impossible in human participants. We show that LLMs -- Gemma 3, GPT4o and o1-preview -- exhibit a pronounced choice-supportive bias that reinforces and boosts their estimate of confidence in their answer, resulting in a marked resistance to change their mind. We further demonstrate that LLMs markedly overweight inconsistent compared to consistent advice, in a fashion that deviates qualitatively from normative Bayesian updating. Finally, we demonstrate that these two mechanisms -- a drive to maintain consistency with prior commitments and hypersensitivity to contradictory feedback -- parsimoniously capture LLM behavior in a different domain. Together, these findings furnish a mechanistic account of LLM confidence that explains both their stubbornness and excessive sensitivity to criticism.