Tracing Facts or just Copies? A critical investigation of the Competitions of Mechanisms in Large Language Models

📄 arXiv: 2507.11809v1 📥 PDF

作者: Dante Campregher, Yanxu Chen, Sander Hoffman, Maria Heuss

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-07-16

备注: 18 Pages, 13 figures

期刊: Transactions on Machine Learning Research (TMLR), 2025


💡 一句话要点

探究大语言模型中机制竞争:事实追踪还是简单复制?

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 可解释性 注意力机制 事实性知识 反事实信息

📋 核心要点

  1. 现有研究缺乏对LLM中事实与反事实信息竞争机制的深入理解,特别是注意力头的作用方式。
  2. 该研究通过复现和分析现有工作,探究注意力头在处理事实和反事实信息时的抑制机制。
  3. 实验表明,注意力头通过一般复制抑制而非选择性反事实抑制来促进事实输出,且行为具有领域依赖性。

📝 摘要(中文)

本文是一项可重复性研究,旨在检验大型语言模型(LLM)如何处理竞争性的事实和反事实信息,重点关注注意力头在此过程中的作用。我们尝试复现并协调Ortu等人、Yu, Merullo和Pavlick以及McDougall等人三项近期研究的发现,这些研究通过机制可解释性工具调查了模型学习的事实与矛盾上下文信息之间的竞争。我们的研究具体考察了注意力头强度与事实输出比率之间的关系,评估了关于注意力头抑制机制的竞争性假设,并研究了这些注意力模式的领域特异性。我们的发现表明,促进事实输出的注意力头通过一般的复制抑制而非选择性的反事实抑制来实现这一点,因为加强它们也可能抑制正确的事实。此外,我们表明注意力头的行为是领域相关的,更大的模型表现出更专业和类别敏感的模式。

🔬 方法详解

问题定义:现有的大语言模型在处理事实性知识时,容易受到上下文信息干扰,产生与已知事实相悖的输出。现有的研究对于模型内部如何处理事实与反事实信息的竞争,以及注意力机制在其中的作用机制尚不明确,缺乏深入的理解。特别是,模型是选择性地抑制反事实信息,还是采取更通用的复制抑制策略,仍然是一个开放的问题。

核心思路:该论文的核心思路是通过可解释性分析,特别是对注意力头的行为进行分析,来理解大语言模型如何处理事实与反事实信息的竞争。通过复现和对比现有研究的结论,探究注意力头在抑制错误信息、促进事实输出中的作用机制。核心假设是,注意力头可能通过不同的抑制策略(选择性反事实抑制 vs. 通用复制抑制)来影响模型的输出。

技术框架:该研究主要采用了机制可解释性的方法,具体流程如下:1) 选择并复现现有研究中关于事实与反事实信息竞争的实验设置。2) 分析注意力头的权重和激活,观察其与模型输出之间的关系。3) 评估不同的假设,例如注意力头是选择性地抑制反事实信息,还是采取更通用的复制抑制策略。4) 考察注意力头行为的领域依赖性,即在不同领域或类别的数据上,注意力头的行为模式是否一致。

关键创新:该研究的关键创新在于对现有关于大语言模型事实性知识处理机制的理解提出了挑战。通过实验发现,注意力头更倾向于使用通用的复制抑制策略,而非选择性地抑制反事实信息。这意味着,加强某些注意力头可能会同时抑制正确和错误的信息,这与之前的假设有所不同。此外,该研究还发现注意力头的行为具有领域依赖性,这表明模型在不同领域可能采用不同的知识处理策略。

关键设计:该研究的关键设计包括:1) 精心设计的实验设置,用于测试模型在面对事实与反事实信息竞争时的行为。2) 使用注意力头权重和激活作为可解释性分析的工具,用于观察和理解模型内部的知识处理过程。3) 通过对比不同模型的行为,以及在不同领域的数据上进行实验,来验证研究结论的泛化性和领域依赖性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,促进事实输出的注意力头倾向于使用通用的复制抑制策略,而非选择性地抑制反事实信息。这意味着,加强这些注意力头可能会同时抑制正确和错误的信息。此外,研究发现注意力头的行为具有领域依赖性,更大的模型表现出更专业和类别敏感的模式。这些发现挑战了现有对大语言模型知识处理机制的理解。

🎯 应用场景

该研究成果有助于提升大语言模型的事实一致性和可靠性,减少模型产生幻觉的可能性。通过理解模型内部的知识处理机制,可以开发更有效的干预方法,例如通过调整注意力头的权重来提高模型的知识准确性。此外,该研究对于开发更可信赖的AI系统具有重要意义,尤其是在需要高度准确性的应用场景,如医疗诊断、金融分析等。

📄 摘要(原文)

This paper presents a reproducibility study examining how Large Language Models (LLMs) manage competing factual and counterfactual information, focusing on the role of attention heads in this process. We attempt to reproduce and reconcile findings from three recent studies by Ortu et al., Yu, Merullo, and Pavlick and McDougall et al. that investigate the competition between model-learned facts and contradictory context information through Mechanistic Interpretability tools. Our study specifically examines the relationship between attention head strength and factual output ratios, evaluates competing hypotheses about attention heads' suppression mechanisms, and investigates the domain specificity of these attention patterns. Our findings suggest that attention heads promoting factual output do so via general copy suppression rather than selective counterfactual suppression, as strengthening them can also inhibit correct facts. Additionally, we show that attention head behavior is domain-dependent, with larger models exhibiting more specialized and category-sensitive patterns.