How Overconfidence in Initial Choices and Underconfidence Under Criticism Modulate Change of Mind in Large Language Models

作者: Dharshan Kumaran, Stephen M Fleming, Larisa Markeeva, Joe Heyward, Andrea Banino, Mrinal Mathur, Razvan Pascanu, Simon Osindero, Benedetto de Martino, Petar Velickovic, Viorica Patraucean

分类: cs.LG, cs.AI

发布日期: 2025-07-03

备注: 41 pages

💡 一句话要点

揭示大语言模型中过度自信与批评下的信心不足如何调节思维转变

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 置信度估计 思维转变 选择支持偏差 贝叶斯更新 认知偏差 实验范式

📋 核心要点

大型语言模型在初始回答中表现出过度自信，但受到批评时又容易产生过度怀疑，这种矛盾行为是研究的核心问题。
论文提出一种新颖的实验范式，利用LLM的独特能力，在不产生记忆的情况下获取置信度估计，研究其思维转变机制。
实验结果表明，LLM存在选择支持偏差，强化对初始答案的置信度，且对不一致的建议过度敏感，偏离贝叶斯更新。

📝 摘要（中文）

大型语言模型（LLMs）表现出引人注目的矛盾行为：它们在最初的答案中可能显得异常自信，但同时在受到质疑时又容易产生过度怀疑。为了研究这种明显的悖论，我们开发了一种新颖的实验范式，利用LLMs的独特能力来获取置信度估计，而不会产生对其初始判断的记忆——这在人类参与者中是不可能的。我们表明，LLMs——Gemma 3、GPT4o和o1-preview——表现出明显的选择支持偏差，这种偏差会强化并提高它们对其答案的置信度估计，从而导致对改变主意的显著抵抗。我们进一步证明，LLMs对不一致的建议的重视程度明显高于一致的建议，其方式与规范的贝叶斯更新存在质的偏差。最后，我们证明了这两种机制——保持与先前承诺一致的驱动力和对矛盾反馈的过度敏感——可以简约地捕捉LLM在不同领域的行为。总之，这些发现为LLM的置信度提供了一种机制性的解释，既解释了它们的固执，也解释了它们对批评的过度敏感。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLMs）在面对质疑时表现出的矛盾行为：一方面，它们在初始回答时显得过度自信；另一方面，当受到批评或挑战时，又表现出过度怀疑。现有方法难以直接研究这种现象，因为无法在人类实验中消除记忆对初始判断的影响。

核心思路：论文的核心思路是利用LLMs的独特优势，即可以获取置信度估计而无需记忆初始判断。通过设计特定的实验范式，研究LLMs在接收到一致或不一致的反馈后，如何调整其置信度以及是否改变主意。这种方法能够更清晰地揭示LLMs的内在决策机制。

技术框架：论文构建了一个实验框架，主要包含以下几个阶段：1) 向LLM提出问题并获得初始答案和置信度估计；2) 向LLM提供一致或不一致的反馈（建议）；3) 再次要求LLM给出答案和置信度估计，并观察其是否改变主意。通过分析LLM在不同反馈条件下的行为，研究其置信度更新和决策过程。

关键创新：论文的关键创新在于实验范式的设计，它允许研究人员在没有记忆干扰的情况下，直接观察LLMs的置信度变化和决策过程。此外，论文还发现LLMs存在选择支持偏差，即倾向于强化对初始选择的置信度，以及对不一致反馈的过度敏感，这与规范的贝叶斯更新存在偏差。

关键设计：论文使用了Gemma 3、GPT4o和o1-preview等多个LLMs进行实验。反馈的形式是提供与初始答案一致或不一致的建议。通过比较不同反馈条件下LLMs的置信度变化和改变主意的概率，分析其决策机制。具体的技术细节包括如何量化置信度、如何设计一致和不一致的反馈，以及如何统计和分析实验数据。

🖼️ 关键图片

📊 实验亮点

实验结果表明，LLMs表现出显著的选择支持偏差，倾向于强化对初始答案的置信度。同时，LLMs对不一致的建议的重视程度远高于一致的建议，与贝叶斯更新存在显著偏差。这些发现揭示了LLMs在决策过程中存在的认知偏差，为改进LLMs的置信度校准和决策机制提供了重要依据。

🎯 应用场景

该研究成果可应用于提升LLMs的可靠性和鲁棒性。通过理解LLMs的置信度机制，可以设计更有效的干预策略，减少其过度自信或过度怀疑的行为，从而提高其在实际应用中的表现，例如在问答系统、对话机器人和决策支持系统等领域。

📄 摘要（原文）

Large language models (LLMs) exhibit strikingly conflicting behaviors: they can appear steadfastly overconfident in their initial answers whilst at the same time being prone to excessive doubt when challenged. To investigate this apparent paradox, we developed a novel experimental paradigm, exploiting the unique ability to obtain confidence estimates from LLMs without creating memory of their initial judgments -- something impossible in human participants. We show that LLMs -- Gemma 3, GPT4o and o1-preview -- exhibit a pronounced choice-supportive bias that reinforces and boosts their estimate of confidence in their answer, resulting in a marked resistance to change their mind. We further demonstrate that LLMs markedly overweight inconsistent compared to consistent advice, in a fashion that deviates qualitatively from normative Bayesian updating. Finally, we demonstrate that these two mechanisms -- a drive to maintain consistency with prior commitments and hypersensitivity to contradictory feedback -- parsimoniously capture LLM behavior in a different domain. Together, these findings furnish a mechanistic account of LLM confidence that explains both their stubbornness and excessive sensitivity to criticism.

How Overconfidence in Initial Choices and Underconfidence Under Criticism Modulate Change of Mind in Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理