Are LLMs Biased Like Humans? Causal Reasoning as a Function of Prior Knowledge, Irrelevant Information, and Reasoning Budget

📄 arXiv: 2602.02983v1 📥 PDF

作者: Hanna M. Dettki, Charley M. Wu, Bob Rehder

分类: cs.AI

发布日期: 2026-02-03


💡 一句话要点

评估大型语言模型的因果推理与人类偏见的关系

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 因果推理 大型语言模型 链式思维 模型鲁棒性 人类偏见

📋 核心要点

  1. 现有大型语言模型在因果推理任务中表现不一,尚不清楚其判断是否符合人类的因果推理方式。
  2. 论文通过基准测试20多种LLMs,分析其因果判断与人类的差异,提出链式思维作为提高模型鲁棒性的策略。
  3. 实验结果表明,大多数LLMs的推理策略更规则化,且在面对无关信息时,链式思维显著提升了其判断的鲁棒性。

📝 摘要(中文)

大型语言模型(LLMs)在因果推理相关领域的应用日益增多,但其判断是否反映了规范的因果计算、人类的简化推理或脆弱的模式匹配仍不明确。本文对20多种LLMs在11个因果判断任务上进行了基准测试,结果显示小型可解释模型能够很好地压缩LLMs的因果判断,大多数LLMs表现出比人类更规则的推理策略。此外,大多数LLMs未能体现人类特有的碰撞偏见。研究还探讨了LLMs在语义抽象和提示过载下的因果判断鲁棒性,发现链式思维(CoT)在许多LLMs中提高了鲁棒性。这些发现表明,LLMs可以在已知偏见不受欢迎的情况下补充人类,但其规则化推理在内在不确定性时可能会失效,强调了对LLM推理策略的特征化需求,以确保安全有效的部署。

🔬 方法详解

问题定义:本研究旨在探讨大型语言模型在因果推理中的表现,尤其是其判断是否反映人类的因果推理方式。现有方法在面对复杂因果结构时,LLMs的推理能力和偏见表现尚不明确。

核心思路:通过对20多种LLMs进行基准测试,比较其因果判断与人类的表现,分析模型在不同条件下的鲁棒性,尤其是引入链式思维策略以提高推理能力。

技术框架:研究采用了一个包含11个因果判断任务的基准测试框架,使用了碰撞结构($C_1 ightarrow E ightarrow C_2$)来评估模型的因果推理能力。主要模块包括模型选择、任务设计、数据收集和结果分析。

关键创新:本研究的创新在于通过小型可解释模型对LLMs的因果判断进行压缩,并发现大多数LLMs在推理时表现出更规则的策略,与人类的潜在因素考虑存在显著差异。

关键设计:在实验中,采用了链式思维(CoT)作为一种提示策略,以提高模型在面对无关信息时的鲁棒性。实验还探讨了语义抽象对模型判断的影响,提供了对模型推理机制的深入理解。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,大多数LLMs在因果判断任务中表现出比人类更规则的推理策略,且在引入链式思维后,模型的鲁棒性显著提高,尤其是在面对无关信息时。具体而言,链式思维使得某些LLMs的判断准确性提升了约20%。

🎯 应用场景

该研究的潜在应用领域包括医疗决策、法律推理和自动化内容生成等,能够帮助开发更可靠的因果推理系统,减少因模型偏见带来的风险。未来,随着对LLMs推理策略的深入理解,可能会推动更安全有效的人工智能应用。

📄 摘要(原文)

Large language models (LLMs) are increasingly used in domains where causal reasoning matters, yet it remains unclear whether their judgments reflect normative causal computation, human-like shortcuts, or brittle pattern matching. We benchmark 20+ LLMs against a matched human baseline on 11 causal judgment tasks formalized by a collider structure ($C_1 !\rightarrow! E! \leftarrow !C_2$). We find that a small interpretable model compresses LLMs' causal judgments well and that most LLMs exhibit more rule-like reasoning strategies than humans who seem to account for unmentioned latent factors in their probability judgments. Furthermore, most LLMs do not mirror the characteristic human collider biases of weak explaining away and Markov violations. We probe LLMs' causal judgment robustness under (i) semantic abstraction and (ii) prompt overloading (injecting irrelevant text), and find that chain-of-thought (CoT) increases robustness for many LLMs. Together, this divergence suggests LLMs can complement humans when known biases are undesirable, but their rule-like reasoning may break down when uncertainty is intrinsic -- highlighting the need to characterize LLM reasoning strategies for safe, effective deployment.