Hedonic Neurons: A Mechanistic Mapping of Latent Coalitions in Transformer MLPs
作者: Tanya Chowdhury, Atharva Nijasure, Yair Zick, James Allan
分类: cs.LG
发布日期: 2025-09-28
备注: Preprint
💡 一句话要点
提出基于合作博弈论的Transformer MLP神经元联盟分析方法,揭示模型内部特征编码机制。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 可解释性 合作博弈论 神经元联盟 特征编码 机制可解释性 Transformer MLP
📋 核心要点
- 大型语言模型MLP层内部的特征表示形式尚不明确,现有方法难以有效揭示神经元间的协作关系。
- 论文提出基于合作博弈论的框架,将神经元视为博弈中的智能体,通过分析神经元联盟的协同效应来理解特征编码。
- 实验表明,该方法能够发现比传统聚类方法具有更高协同作用的神经元联盟,并揭示了模型内部的更高阶结构。
📝 摘要(中文)
微调后的大型语言模型(LLM)编码了丰富的特定任务特征,但这些表征的形式,尤其是在MLP层中,仍然不清楚。对LoRA更新的经验性检查表明,新特征集中在中间层的MLP中,但这些层的规模掩盖了有意义的结构。先前的研究表明,统计先验可能在深度上加强、分裂或消失,这促使我们需要研究神经元如何协同工作,而不是孤立地研究。我们引入了一种基于合作博弈论的机制可解释性框架,其中神经元模仿享乐博弈中的智能体,其偏好捕捉了它们对层局部计算的协同贡献。使用top-responsive效用和PAC-Top-Cover算法,我们提取了稳定的神经元联盟:联合消融具有非加性效应的群体。然后,我们跟踪它们在层间的转换,如持久性、分裂、合并或消失。应用于在标量IR任务上微调的LLaMA、Mistral和Pythia重排序器,我们的方法发现的联盟具有比聚类基线始终更高的协同作用。通过揭示神经元如何合作编码特征,享乐联盟揭示了超越解耦的更高阶结构,并产生了在领域中具有功能重要性、可解释性和预测性的计算单元。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)中,特别是MLP层中神经元如何协同工作以编码特定任务特征的问题。现有方法,如孤立地研究神经元或简单的聚类方法,无法有效揭示神经元之间的复杂协作关系,以及它们对模型整体功能的贡献。现有方法难以解释模型内部的特征表示形式,以及这些表示形式如何随模型深度变化。
核心思路:论文的核心思路是将LLM的MLP层中的神经元视为享乐博弈中的智能体,每个神经元都有自己的“偏好”,这些偏好反映了它与其他神经元合作时对层局部计算的协同贡献。通过分析这些神经元形成的联盟,可以揭示它们如何共同编码特征,以及这些特征在模型中的作用。这种方法的核心在于利用合作博弈论来量化神经元之间的协同效应,从而理解模型内部的更高阶结构。
技术框架:该方法主要包含以下几个阶段:1) 效用函数定义:定义一个效用函数,用于衡量神经元对层局部计算的贡献。该效用函数基于神经元的激活值和模型输出之间的关系。2) 联盟构建:使用PAC-Top-Cover算法提取稳定的神经元联盟。这些联盟的特点是,联合消融它们会对模型输出产生非加性的影响,表明它们之间存在协同作用。3) 联盟追踪:跟踪这些联盟在不同层之间的转换,包括持久性、分裂、合并和消失等。通过分析这些转换,可以了解特征在模型中的传播和演化过程。
关键创新:该方法最重要的技术创新在于将合作博弈论引入到LLM的可解释性研究中。通过将神经元视为博弈中的智能体,并分析它们形成的联盟,可以更深入地理解模型内部的特征编码机制。与传统的解耦方法相比,该方法能够揭示神经元之间的更高阶结构,并发现具有功能重要性、可解释性和预测性的计算单元。
关键设计:关键设计包括:1) Top-responsive utilities:使用top-responsive效用函数来衡量神经元的贡献,这种效用函数能够捕捉神经元对模型输出的最重要影响。2) PAC-Top-Cover算法:使用PAC-Top-Cover算法来高效地提取稳定的神经元联盟。3) 联盟转换分析:通过分析联盟在不同层之间的转换,来了解特征在模型中的传播和演化过程。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法能够发现比传统聚类方法具有更高协同作用的神经元联盟。具体来说,在LLaMA、Mistral和Pythia重排序器上,该方法发现的联盟具有始终高于聚类基线的协同作用。这些联盟揭示了模型内部的更高阶结构,并产生了在领域中具有功能重要性、可解释性和预测性的计算单元。
🎯 应用场景
该研究成果可应用于提升大型语言模型的可解释性和可控性,例如,通过理解神经元联盟的运作方式,可以更好地进行模型调试、优化和安全评估。此外,该方法还可以用于知识发现,揭示模型内部蕴含的知识表示形式,并将其应用于其他领域。
📄 摘要(原文)
Fine-tuned Large Language Models (LLMs) encode rich task-specific features, but the form of these representations, especially within MLP layers, remains unclear. Empirical inspection of LoRA updates shows that new features concentrate in mid-layer MLPs, yet the scale of these layers obscures meaningful structure. Prior probing suggests that statistical priors may strengthen, split, or vanish across depth, motivating the need to study how neurons work together rather than in isolation. We introduce a mechanistic interpretability framework based on coalitional game theory, where neurons mimic agents in a hedonic game whose preferences capture their synergistic contributions to layer-local computations. Using top-responsive utilities and the PAC-Top-Cover algorithm, we extract stable coalitions of neurons: groups whose joint ablation has non-additive effects. We then track their transitions across layers as persistence, splitting, merging, or disappearance. Applied to LLaMA, Mistral, and Pythia rerankers fine-tuned on scalar IR tasks, our method finds coalitions with consistently higher synergy than clustering baselines. By revealing how neurons cooperate to encode features, hedonic coalitions uncover higher-order structure beyond disentanglement and yield computational units that are functionally important, interpretable, and predictive across domains.