The role of System 1 and System 2 semantic memory structure in human and LLM biases

📄 arXiv: 2604.12816v1 📥 PDF

作者: Katherine Abramski, Giulio Rossetti, Massimo Stella

分类: cs.CL

发布日期: 2026-04-14

备注: 31 pages, 5 figures, 9 appendix figures


💡 一句话要点

通过语义记忆网络结构分析人类和LLM偏见差异,揭示认知机制

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 隐性偏见 语义记忆网络 双重过程理论 大型语言模型 认知机制 性别偏见 网络分析

📋 核心要点

  1. 隐性偏见存在于人类和LLM中,理解其认知机制是关键,现有理论未能充分解释。
  2. 论文构建语义记忆网络模拟系统1和系统2思维,分析其结构与隐性偏见的关系。
  3. 研究发现人类语义记忆结构具有不可约性,且与偏见调节相关,LLM则不然。

📝 摘要(中文)

人类和大型语言模型(LLM)中存在的隐性偏见构成了重要的社会风险。双重过程理论认为,偏见主要源于联想性的系统1思维,而审慎性的系统2思维可以减轻偏见。为了更好地理解人类(以及可能的LLM)中这种二元性的潜在机制,我们构建了具有不同结构的语义记忆网络来模拟系统1和系统2思维。这些网络基于人类和LLM生成的可比数据集构建。然后,我们使用基于网络的评估指标来研究这些不同的语义记忆结构与隐性性别偏见之间的关系。我们发现语义记忆结构仅在人类中是不可简化的,这表明LLM缺乏某些类型的人类概念知识。此外,语义记忆结构仅在人类中与隐性偏见持续相关,系统2结构中的偏见水平较低。这些发现表明,某些类型的概念知识有助于人类的偏见调节,但在LLM中则不然,突出了人类和机器认知之间的根本差异。

🔬 方法详解

问题定义:论文旨在理解人类和大型语言模型(LLM)中隐性偏见的认知根源,特别是系统1和系统2思维在其中的作用。现有方法未能充分解释这两种思维模式如何影响偏见的产生和调节,以及人类和LLM在偏见方面的差异。

核心思路:论文的核心思路是将系统1和系统2思维建模为具有不同结构的语义记忆网络。通过比较人类和LLM构建的语义记忆网络的结构特征,并分析这些结构与隐性性别偏见之间的关系,从而揭示人类和LLM在偏见认知机制上的差异。这种方法允许研究者量化和比较不同思维模式的语义组织方式,并将其与偏见水平联系起来。

技术框架:整体框架包括以下几个主要步骤: 1. 数据收集:收集人类和LLM生成的数据,用于构建语义记忆网络。 2. 网络构建:基于收集的数据,分别构建系统1和系统2的语义记忆网络,人类和LLM各有两个网络。 3. 网络分析:使用网络分析指标(如连通性、聚类系数等)来评估网络的结构特征。 4. 偏见评估:使用隐性联想测验(IAT)等方法评估人类和LLM的隐性性别偏见。 5. 关联分析:分析语义记忆网络的结构特征与隐性偏见之间的关系。

关键创新:论文的关键创新在于: 1. 将双重过程理论与语义记忆网络相结合,为研究偏见的认知机制提供了一种新的视角。 2. 比较了人类和LLM的语义记忆网络结构,揭示了两者在概念知识和偏见调节方面的根本差异。 3. 发现语义记忆结构仅在人类中是不可简化的,并且与偏见调节相关,这为理解人类认知提供了新的线索。

关键设计:论文的关键设计包括: 1. 使用可比的数据集构建人类和LLM的语义记忆网络,以确保比较的公平性。 2. 使用多种网络分析指标来全面评估网络的结构特征。 3. 使用隐性联想测验(IAT)来量化隐性性别偏见。 4. 采用统计方法来分析语义记忆网络的结构特征与隐性偏见之间的关系。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究发现,人类的系统2语义记忆网络结构与较低的隐性性别偏见相关,而LLM则没有这种关联。更重要的是,人类的语义记忆网络结构具有不可约性,这表明人类拥有LLM所缺乏的特定类型的概念知识。这些发现强调了人类和机器认知之间的根本差异,并为理解偏见的认知机制提供了新的见解。

🎯 应用场景

该研究成果可应用于开发更公平、更可靠的AI系统,尤其是在涉及敏感社会问题的领域,如招聘、信贷评估等。通过理解LLM与人类在认知上的差异,可以设计出能够减轻偏见、促进公平的算法。此外,该研究也有助于深入理解人类认知,为教育和心理干预提供理论基础。

📄 摘要(原文)

Implicit biases in both humans and large language models (LLMs) pose significant societal risks. Dual process theories propose that biases arise primarily from associative System 1 thinking, while deliberative System 2 thinking mitigates bias, but the cognitive mechanisms that give rise to this phenomenon remain poorly understood. To better understand what underlies this duality in humans, and possibly in LLMs, we model System 1 and System 2 thinking as semantic memory networks with distinct structures, built from comparable datasets generated by both humans and LLMs. We then investigate how these distinct semantic memory structures relate to implicit gender bias using network-based evaluation metrics. We find that semantic memory structures are irreducible only in humans, suggesting that LLMs lack certain types of human-like conceptual knowledge. Moreover, semantic memory structure relates consistently to implicit bias only in humans, with lower levels of bias in System~2 structures. These findings suggest that certain types of conceptual knowledge contribute to bias regulation in humans, but not in LLMs, highlighting fundamental differences between human and machine cognition.