Enhancing Automated Interpretability with Output-Centric Feature Descriptions

作者: Yoav Gur-Arieh, Roy Mayan, Chen Agassy, Atticus Geiger, Mor Geva

分类: cs.CL

发布日期: 2025-01-14 (更新: 2025-05-29)

备注: Accepted to ACL 2025 Main Conference

💡 一句话要点

提出输出中心特征描述方法，提升大语言模型自动可解释性并发现“死亡”特征。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 可解释性 特征描述 因果效应 输出中心 模型分析 steering评估

📋 核心要点

现有自动可解释性流程依赖于激活特征的输入来生成描述，但忽略了特征对输出的因果影响。
论文提出以输出为中心的方法，通过分析特征激活后权重较高的token来生成特征描述。
实验表明，输出中心描述能更好捕捉特征对输出的因果效应，并能发现先前被认为是“死亡”的特征。

📝 摘要（中文）

自动可解释性流程旨在为大型语言模型（LLM）中特征所代表的概念生成自然语言描述，例如植物或句子中的第一个词。这些描述通常基于激活特征的输入，特征可以是模型表征空间中的维度或方向。然而，识别激活输入的成本很高，并且特征在模型行为中的机制作用取决于输入如何激活特征以及特征激活如何影响输出。通过steering评估，我们发现当前的流程提供的描述未能捕捉特征对输出的因果效应。为了解决这个问题，我们提出了高效的、以输出为中心的方法来自动生成特征描述。这些方法使用特征刺激后权重较高的token，或者直接将词汇“unembedding”头应用于特征后权重最高的token。与以输入为中心的描述相比，我们的输出中心描述更好地捕捉了特征对模型输出的因果效应，但将两者结合可以获得最佳的输入和输出评估性能。最后，我们表明，输出中心描述可用于找到先前被认为是“死亡”的特征的激活输入。

🔬 方法详解

问题定义：现有自动可解释性方法主要依赖于识别激活模型内部特征的输入样本，然后基于这些输入样本生成对特征的描述。这种方法忽略了特征激活后对模型输出的影响，即特征在模型行为中的因果作用。此外，寻找激活特征的输入样本通常计算成本高昂，限制了可解释性分析的效率。因此，如何更准确、更高效地描述模型内部特征，尤其是考虑特征对输出的影响，是本文要解决的核心问题。

核心思路：论文的核心思路是转变特征描述的视角，从传统的“输入中心”转向“输出中心”。不再仅仅关注哪些输入能激活特征，而是关注特征激活后，模型输出发生了什么变化。通过分析特征激活后模型输出中权重较高的token，来推断特征所代表的概念或功能。这种方法直接关注特征对输出的因果效应，从而更准确地描述特征在模型行为中的作用。

技术框架：论文提出的技术框架主要包含以下几个阶段：1) 特征选择：选择需要进行可解释性分析的模型内部特征。2) 特征刺激：对选定的特征进行刺激，例如通过修改特征向量的值。3) 输出分析：分析特征刺激后模型输出的变化，例如token权重的变化。4) 描述生成：基于输出分析的结果，生成对特征的自然语言描述。具体而言，论文提出了两种输出中心的方法：一种是使用特征刺激后权重较高的token，另一种是直接将词汇“unembedding”头应用于特征，然后选择权重最高的token。

关键创新：论文的关键创新在于提出了“输出中心”的特征描述方法。与传统的“输入中心”方法相比，该方法更直接地关注特征对模型输出的因果效应，从而能够更准确地描述特征在模型行为中的作用。此外，该方法还具有更高的效率，因为它不需要寻找激活特征的输入样本，而是直接分析特征激活后的输出变化。

关键设计：论文的关键设计包括：1) 使用steering evaluations来评估特征描述的质量，即通过修改特征的值来观察模型输出的变化。2) 提出了两种具体的输出中心描述方法：一种是基于特征刺激后token权重的变化，另一种是基于词汇“unembedding”头。3) 将输出中心描述与输入中心描述相结合，以获得更好的可解释性效果。

🖼️ 关键图片

📊 实验亮点

实验结果表明，输出中心描述比输入中心描述更能捕捉特征对输出的因果效应。将输出中心描述与输入中心描述相结合，可以获得最佳的输入和输出评估性能。此外，输出中心描述还能够找到先前被认为是“死亡”的特征的激活输入，揭示了模型内部更深层次的机制。

🎯 应用场景

该研究成果可应用于提升大型语言模型的可解释性和可控性。通过更准确地理解模型内部特征的功能，可以更好地诊断模型行为，发现潜在的偏见或漏洞，并进行针对性的改进。此外，该方法还可以用于指导模型的训练和优化，例如通过设计具有特定功能的特征来提高模型的性能。

📄 摘要（原文）

Automated interpretability pipelines generate natural language descriptions for the concepts represented by features in large language models (LLMs), such as plants or the first word in a sentence. These descriptions are derived using inputs that activate the feature, which may be a dimension or a direction in the model's representation space. However, identifying activating inputs is costly, and the mechanistic role of a feature in model behavior is determined both by how inputs cause a feature to activate and by how feature activation affects outputs. Using steering evaluations, we reveal that current pipelines provide descriptions that fail to capture the causal effect of the feature on outputs. To fix this, we propose efficient, output-centric methods for automatically generating feature descriptions. These methods use the tokens weighted higher after feature stimulation or the highest weight tokens after applying the vocabulary "unembedding" head directly to the feature. Our output-centric descriptions better capture the causal effect of a feature on model outputs than input-centric descriptions, but combining the two leads to the best performance on both input and output evaluations. Lastly, we show that output-centric descriptions can be used to find inputs that activate features previously thought to be "dead".

Enhancing Automated Interpretability with Output-Centric Feature Descriptions

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理