Toward a Theory of Generalizability in LLM Mechanistic Interpretability Research

作者: Sean Trott

分类: cs.AI, cs.CL

发布日期: 2025-09-26

💡 一句话要点

提出LLM可解释性研究中的泛化性理论框架，并验证1-back注意力头的泛化能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: LLM可解释性 泛化性理论 机制性解释 注意力机制 模型预训练

📋 核心要点

当前LLM可解释性研究缺乏明确的泛化性原则，难以判断从一个模型获得的结论是否适用于其他模型。
论文提出五个泛化轴：功能性、发展性、位置性、关系性和配置性，用于评估机制性声明在不同LLM间的泛化能力。
通过对Pythia模型中1-back注意力头的分析，验证了发展性泛化的一致性，并观察到模型规模对注意力头发展的影响。

📝 摘要（中文）

大型语言模型（LLM）的研究越来越关注于识别其行为的机制性解释，但该领域缺乏明确的原则来确定从一个模型实例中获得的发现何时（以及如何）推广到另一个模型。本文旨在解决一个根本性的认识论挑战：给定关于特定模型的机制性声明，什么能证明将这一发现外推到其他LLM是合理的——以及这种泛化可能沿着哪些维度进行？我提出了五个潜在的对应轴，机制性声明可能沿着这些轴泛化，包括：功能性（是否满足相同的功能标准）、发展性（是否在预训练期间的相似时间点发展）、位置性（是否占据相似的绝对或相对位置）、关系性（是否以类似的方式与其他模型组件交互）和配置性（是否对应于权重空间中的特定区域或结构）。为了实证验证这个框架，我分析了Pythia模型（14M、70M、160M、410M）的随机种子在预训练过程中的“1-back注意力头”（关注先前token的组件）。结果表明，模型间1-back注意力的发展轨迹具有显著的一致性，而位置一致性则较为有限。此外，较大模型的种子系统地显示出1-back注意力的更早出现、更陡峭的斜率和更高的峰值。我还讨论了对本文提出的论点和建议的可能异议。最后，我总结认为，在机制可解释性研究的泛化性方面的进展将包括将LLM的构成性设计属性映射到它们涌现的行为和机制。

🔬 方法详解

问题定义：当前LLM可解释性研究的重点在于理解模型内部机制，但缺乏一套系统的方法来评估这些机制在不同模型之间的泛化能力。现有方法难以确定从一个特定模型实例中获得的结论是否适用于其他模型，以及在何种程度上适用。这阻碍了对LLM行为的普遍理解和有效控制。

核心思路：论文的核心思路是提出一个泛化性理论框架，通过定义五个关键的对应轴（功能性、发展性、位置性、关系性和配置性）来评估机制性声明在不同LLM之间的泛化程度。通过分析这些轴，可以更清晰地理解哪些机制是模型特定的，哪些是更普遍的。

技术框架：该研究的技术框架主要包括两个部分。首先，提出了五个泛化轴，作为评估机制性声明泛化能力的理论基础。其次，通过实证研究，分析了Pythia模型家族中1-back注意力头的行为，以验证该框架的有效性。具体而言，研究人员比较了不同规模Pythia模型（14M、70M、160M、410M）的随机种子在预训练过程中的1-back注意力头的激活模式。

关键创新：该论文最重要的技术创新在于提出了一个结构化的泛化性理论框架，为LLM可解释性研究提供了一个新的视角。与以往关注单个模型内部机制的研究不同，该研究强调了机制在不同模型之间的泛化能力，并提出了具体的评估标准。这有助于将可解释性研究从个案分析推广到更普遍的规律。

关键设计：在实证研究中，关键的设计包括选择1-back注意力头作为研究对象，因为它是一种相对简单且易于理解的机制。此外，选择Pythia模型家族作为研究对象，因为它提供了一系列不同规模的模型，便于比较模型规模对机制行为的影响。研究人员还仔细分析了1-back注意力头在预训练过程中的激活模式，并量化了其出现时间、斜率和峰值等指标。

🖼️ 关键图片

📊 实验亮点

实验结果表明，1-back注意力头的发展轨迹在不同规模的Pythia模型中具有显著的一致性，验证了发展性泛化的存在。同时，较大模型的种子系统地显示出1-back注意力的更早出现、更陡峭的斜率和更高的峰值，表明模型规模对注意力头的行为有显著影响。位置一致性则相对有限。

🎯 应用场景

该研究成果可应用于LLM的安全性评估、模型压缩和迁移学习等领域。通过理解哪些机制具有泛化性，可以更好地预测和控制LLM在不同场景下的行为，从而提高模型的可靠性和安全性。此外，该框架还可以指导模型设计，选择更具泛化能力的架构和训练方法。

📄 摘要（原文）

Research on Large Language Models (LLMs) increasingly focuses on identifying mechanistic explanations for their behaviors, yet the field lacks clear principles for determining when (and how) findings from one model instance generalize to another. This paper addresses a fundamental epistemological challenge: given a mechanistic claim about a particular model, what justifies extrapolating this finding to other LLMs -- and along which dimensions might such generalizations hold? I propose five potential axes of correspondence along which mechanistic claims might generalize, including: functional (whether they satisfy the same functional criteria), developmental (whether they develop at similar points during pretraining), positional (whether they occupy similar absolute or relative positions), relational (whether they interact with other model components in similar ways), and configurational (whether they correspond to particular regions or structures in weight-space). To empirically validate this framework, I analyze "1-back attention heads" (components attending to previous tokens) across pretraining in random seeds of the Pythia models (14M, 70M, 160M, 410M). The results reveal striking consistency in the developmental trajectories of 1-back attention across models, while positional consistency is more limited. Moreover, seeds of larger models systematically show earlier onsets, steeper slopes, and higher peaks of 1-back attention. I also address possible objections to the arguments and proposals outlined here. Finally, I conclude by arguing that progress on the generalizability of mechanistic interpretability research will consist in mapping constitutive design properties of LLMs to their emergent behaviors and mechanisms.

Toward a Theory of Generalizability in LLM Mechanistic Interpretability Research

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理