Failing to Falsify: Evaluating and Mitigating Confirmation Bias in Language Models

作者: Ayush Rajesh Jhaveri, Anthony GX-Chen, Ilia Sucholutsky, Eunsol Choi

分类: cs.CL, cs.LG

发布日期: 2026-04-06

💡 一句话要点

揭示大语言模型中的确认偏差并提出干预策略以提升规则发现能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 确认偏差 大语言模型 规则发现 干预策略 假设探索

📋 核心要点

现有大语言模型在假设探索中存在确认偏差，倾向于验证而非证伪假设，阻碍了其推理能力。
论文借鉴人类心理学研究，通过交互式反馈循环，鼓励模型考虑反例，降低确认偏差。
实验表明，该方法能有效提升LLM的规则发现率，并能泛化到新的Blicket测试任务中。

📝 摘要（中文）

本文研究了大语言模型(LLMs)是否表现出确认偏差，即倾向于寻找支持而非挑战自身信念的证据。通过改编心理学中的规则发现实验，让LLM参与一个交互式反馈循环：提出三元组、接收规则反馈、猜测规则。实验结果表明，多个系列和规模的LLM都表现出确认偏差，倾向于提出验证假设的三元组，导致规则发现速度降低和频率下降。进一步探索了针对人类的干预策略，发现通过提示LLM考虑反例可以有效降低确认偏差，平均规则发现率从42%提高到56%。最后，通过将干预诱导的行为提炼到LLM中，缓解了确认偏差，并在新的Blicket测试任务中显示出良好的泛化能力。该研究表明，确认偏差是LLM在假设探索中的一个局限性，可以通过注入针对人类设计的干预措施来缓解。

🔬 方法详解

问题定义：论文旨在解决大语言模型（LLMs）在假设探索过程中存在的确认偏差问题。现有的LLMs在面对需要探索性推理的任务时，往往倾向于寻找支持自身假设的证据，而忽略或回避可能证伪假设的证据。这种确认偏差会阻碍LLMs发现正确的规则或模式，降低其推理能力和决策质量。

核心思路：论文的核心思路是借鉴人类心理学中用于缓解确认偏差的干预策略，并将其应用于LLMs。具体来说，论文通过提示LLMs主动寻找反例，鼓励其考虑与当前假设不符的情况，从而打破确认偏差的循环，更全面地评估假设的有效性。这种方法旨在引导LLMs从“验证模式”切换到“证伪模式”，提高其发现正确规则的概率。

技术框架：论文采用了一个改编自人类心理学研究的规则发现实验框架。该框架包含以下几个主要步骤： 1. 三元组生成：LLM提出一个由三个数字组成的三元组。 2. 规则反馈：LLM接收关于该三元组是否符合隐藏规则的反馈。 3. 规则猜测：LLM根据已有的三元组和反馈，猜测隐藏规则。 4. 干预（可选）：在某些实验中，LLM会接收到提示，鼓励其考虑反例。整个过程是一个交互式的循环，LLM不断提出新的三元组，接收反馈，并更新其对隐藏规则的猜测。通过比较不同干预策略下LLM的规则发现率，可以评估其确认偏差的程度以及干预策略的有效性。

关键创新：论文的关键创新在于将人类心理学中用于缓解确认偏差的干预策略成功应用于LLMs。具体来说，论文发现，通过简单地提示LLMs考虑反例，就可以显著降低其确认偏差，提高规则发现率。此外，论文还探索了将干预诱导的行为提炼到LLMs中的方法，从而实现更持久的确认偏差缓解效果。

关键设计：论文的关键设计包括： 1. 提示工程：设计有效的提示语，引导LLMs考虑反例。例如，提示语可以鼓励LLMs提出与当前假设不符的三元组。 2. 规则选择：选择具有一定复杂度的隐藏规则，以确保LLMs需要进行一定的探索性推理才能发现规则。 3. 评估指标：使用规则发现率作为评估LLMs确认偏差程度和干预策略有效性的主要指标。

🖼️ 关键图片

📊 实验亮点

实验结果表明，通过提示LLM考虑反例，可以显著降低其确认偏差，平均规则发现率从42%提高到56%。此外，通过将干预诱导的行为提炼到LLM中，可以在新的Blicket测试任务中实现良好的泛化能力，表明该方法具有一定的通用性。

🎯 应用场景

该研究成果可应用于提升大语言模型在需要探索性推理的场景下的性能，例如科学发现、问题诊断、决策支持等。通过缓解确认偏差，可以使LLM更客观地评估信息，避免盲目相信自身假设，从而做出更明智的决策。此外，该研究也为开发更可靠、更值得信任的人工智能系统提供了新的思路。

📄 摘要（原文）

Confirmation bias, the tendency to seek evidence that supports rather than challenges one's belief, hinders one's reasoning ability. We examine whether large language models (LLMs) exhibit confirmation bias by adapting the rule-discovery study from human psychology: given a sequence of three numbers (a "triple"), an agent engages in an interactive feedback loop where it (1) proposes a new triple, (2) receives feedback on whether it satisfies the hidden rule, and (3) guesses the rule. Across eleven LLMs of multiple families and scales, we find that LLMs exhibit confirmation bias, often proposing triples to confirm their hypothesis rather than trying to falsify it. This leads to slower and less frequent discovery of the hidden rule. We further explore intervention strategies (e.g., encouraging the agent to consider counter examples) developed for humans. We find prompting LLMs with such instruction consistently decreases confirmation bias in LLMs, improving rule discovery rates from 42% to 56% on average. Lastly, we mitigate confirmation bias by distilling intervention-induced behavior into LLMs, showing promising generalization to a new task, the Blicket test. Our work shows that confirmation bias is a limitation of LLMs in hypothesis exploration, and that it can be mitigated via injecting interventions designed for humans.

Failing to Falsify: Evaluating and Mitigating Confirmation Bias in Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理