Unveiling Confirmation Bias in Chain-of-Thought Reasoning

📄 arXiv: 2506.12301v1 📥 PDF

作者: Yue Wan, Xiaowei Jia, Xiang Lorraine Li

分类: cs.LG, cs.AI

发布日期: 2025-06-14

期刊: ACL 2025 Findings

🔗 代码/项目: GITHUB


💡 一句话要点

揭示思维链推理中大语言模型的确认偏差现象

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 思维链推理 确认偏差 大语言模型 认知心理学 提示工程

📋 核心要点

  1. 思维链推理在不同任务中表现不一致,现有研究缺乏对内在原因的深入理解。
  2. 该论文从认知心理学角度出发,将确认偏差引入对思维链推理过程的分析。
  3. 通过实验验证了模型信念对推理过程和答案预测的影响,揭示了确认偏差的存在。

📝 摘要(中文)

思维链(CoT)提示已被广泛用于增强大型语言模型(LLM)的推理能力。然而,CoT推理在不同推理类型的任务中效果并不一致。本文从认知心理学中的确认偏差角度,提出了一种理解CoT行为的新视角。具体来说,我们研究了模型内部信念(通过直接问答概率近似)如何影响CoT中的推理生成(Q→R)和推理引导的答案预测(QR→A)。通过将CoT分解为两阶段过程,我们对模型信念、推理属性和阶段性性能进行了全面的相关性分析。结果为LLM中的确认偏差提供了强有力的证据,表明模型信念不仅会扭曲推理过程,还会影响如何利用理由进行答案预测。此外,任务对确认偏差的脆弱性和信念强度之间的相互作用也解释了CoT在不同推理任务和模型中的有效性。总的来说,这项研究为更好地提示策略提供了有价值的见解,从而减轻确认偏差以提高推理性能。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在使用思维链(CoT)推理时,在不同任务上表现不一致的问题。现有的研究缺乏对这种不一致性的内在原因的深入理解,特别是模型内部信念对推理过程的影响。这种信念偏差可能导致模型在推理过程中倾向于支持其先前的假设,从而影响推理的准确性。

核心思路:论文的核心思路是将认知心理学中的“确认偏差”概念引入到对LLM思维链推理过程的分析中。确认偏差是指人们倾向于寻找、解释、偏爱和回忆能够支持自己先前信念的信息。论文假设LLM也可能受到类似偏差的影响,从而在推理过程中倾向于生成支持其初始信念的理由,并利用这些理由来支持其初始答案。

技术框架:论文将CoT推理过程分解为两个阶段:推理生成阶段(Q→R)和推理引导的答案预测阶段(QR→A)。首先,使用直接问答概率来近似模型内部信念。然后,通过相关性分析,研究模型信念、推理属性(如推理的正确性、相关性等)以及两个阶段的性能之间的关系。具体来说,计算模型信念与推理属性之间的相关性,以及模型信念对两个阶段性能的影响。

关键创新:论文最重要的创新点在于将认知心理学中的确认偏差概念引入到对LLM思维链推理过程的分析中。通过这种新颖的视角,论文揭示了LLM在推理过程中存在的偏差,并解释了CoT在不同任务上表现不一致的原因。这为改进CoT提示策略,减轻确认偏差,从而提高推理性能提供了新的思路。

关键设计:论文的关键设计包括:1) 使用直接问答概率来近似模型内部信念;2) 将CoT推理过程分解为两个阶段,以便分别分析模型信念对推理生成和答案预测的影响;3) 使用相关性分析来量化模型信念、推理属性和阶段性性能之间的关系。具体的参数设置和网络结构取决于所使用的LLM模型,论文侧重于分析框架和实验结果,而非特定模型的微调。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,模型信念与推理属性之间存在显著的相关性,证实了LLM中存在确认偏差。具体来说,模型更倾向于生成支持其初始信念的理由,并且利用这些理由来支持其初始答案。此外,任务对确认偏差的脆弱性和信念强度之间的相互作用也解释了CoT在不同推理任务和模型中的有效性。代码已开源。

🎯 应用场景

该研究成果可应用于提升大语言模型在各种推理任务中的可靠性和准确性,例如问答系统、对话系统和决策支持系统。通过减轻确认偏差,可以提高模型在面对复杂或有争议问题时的客观性和公正性。此外,该研究还可以指导开发更有效的提示策略,从而充分发挥思维链推理的潜力。

📄 摘要(原文)

Chain-of-thought (CoT) prompting has been widely adopted to enhance the reasoning capabilities of large language models (LLMs). However, the effectiveness of CoT reasoning is inconsistent across tasks with different reasoning types. This work presents a novel perspective to understand CoT behavior through the lens of \textit{confirmation bias} in cognitive psychology. Specifically, we examine how model internal beliefs, approximated by direct question-answering probabilities, affect both reasoning generation ($Q \to R$) and reasoning-guided answer prediction ($QR \to A$) in CoT. By decomposing CoT into a two-stage process, we conduct a thorough correlation analysis in model beliefs, rationale attributes, and stage-wise performance. Our results provide strong evidence of confirmation bias in LLMs, such that model beliefs not only skew the reasoning process but also influence how rationales are utilized for answer prediction. Furthermore, the interplay between task vulnerability to confirmation bias and the strength of beliefs also provides explanations for CoT effectiveness across reasoning tasks and models. Overall, this study provides a valuable insight for the needs of better prompting strategies that mitigate confirmation bias to enhance reasoning performance. Code is available at \textit{https://github.com/yuewan2/biasedcot}.