Automatically Interpreting Millions of Features in Large Language Models

作者: Gonçalo Paulo, Alex Mallen, Caden Juang, Nora Belrose

分类: cs.LG, cs.CL

发布日期: 2024-10-17 (更新: 2025-08-06)

🔗 代码/项目: GITHUB | HUGGINGFACE

💡 一句话要点

提出自动化解释框架，利用大语言模型解释稀疏自编码器中的海量特征，提升可解释性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 稀疏自编码器 可解释性 自动化解释 特征分析

📋 核心要点

深度神经网络神经元激活难以解释，稀疏自编码器虽能提升可解释性，但其海量特征使人工解释不可行。
提出自动化解释框架，利用大语言模型为稀疏自编码器特征生成自然语言解释，并设计多种评分技术评估解释质量。
实验表明，该框架能有效解释稀疏自编码器特征，且干预评分能发现现有方法遗漏的特征，验证了SAE潜在特征比神经元更易解释。

📝 摘要（中文）

深度神经网络中神经元的激活通常难以直接理解，稀疏自编码器(SAE)可以将这些激活转换为更高维的潜在空间，从而更容易解释。然而，SAE可能包含数百万个不同的潜在特征，使得人工解释每个特征变得不可行。本文构建了一个开源的自动化流程，利用大语言模型为SAE特征生成和评估自然语言解释。我们在不同大小、激活函数和损失函数的SAE上测试了该框架，这些SAE在两个不同的开源大语言模型上训练。我们引入了五种新的技术来评估解释的质量，这些技术比现有技术更经济。其中一种技术，干预评分，评估干预特征效果的可解释性，我们发现它可以解释现有方法无法回忆的特征。我们提出了生成更好解释的指南，这些解释对于更广泛的激活上下文仍然有效，并讨论了现有评分技术的缺陷。我们使用我们的解释来衡量独立训练的SAE的语义相似性，发现残差流附近层上训练的SAE高度相似。我们的大规模分析证实，即使使用top-$k$后处理稀疏化神经元，SAE潜在特征也比神经元更易于解释。我们的代码可在https://github.com/EleutherAI/sae-auto-interp 获得，我们的解释可在https://huggingface.co/datasets/EleutherAI/auto_interp_explanations 获得。

🔬 方法详解

问题定义：论文旨在解决稀疏自编码器（SAE）中数百万个潜在特征难以人工解释的问题。现有方法主要依赖人工分析，效率低下且难以扩展到大规模SAE。因此，如何自动且有效地解释SAE中的海量特征，是本研究要解决的核心问题。

核心思路：论文的核心思路是利用大语言模型（LLM）生成SAE特征的自然语言解释，并设计多种评分机制来评估这些解释的质量。通过自动化生成和评估，可以显著提高SAE特征解释的效率和可扩展性。此外，通过干预评分等新颖的评估方法，能够发现现有方法难以捕捉的特征。

技术框架：整体框架包含以下几个主要阶段：1) 使用SAE对LLM的激活进行编码，得到大量潜在特征；2) 利用LLM为每个SAE特征生成自然语言解释；3) 使用多种评分技术（包括干预评分）评估解释的质量；4) 基于评估结果，优化解释生成策略，并分析SAE特征的语义相似性。

关键创新：论文的关键创新在于：1) 提出了一个完整的自动化解释流程，将LLM应用于SAE特征的解释；2) 设计了五种新的评分技术，特别是干预评分，能够有效评估解释的质量，并发现现有方法遗漏的特征；3) 提出了生成更好解释的指南，使其在更广泛的激活上下文中保持有效性。

关键设计：在解释生成方面，论文探索了不同的prompt策略，以提高解释的准确性和一致性。在评分方面，干预评分通过改变SAE特征的激活值，观察对LLM输出的影响，从而评估解释的合理性。此外，论文还研究了不同大小、激活函数和损失函数的SAE对解释效果的影响。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该自动化解释框架能够有效地解释SAE中的海量特征，并且干预评分能够发现现有方法遗漏的特征。大规模分析证实，SAE潜在特征比稀疏化后的神经元更易于解释。此外，实验还发现，在残差流附近层上训练的SAE具有高度的语义相似性。

🎯 应用场景

该研究成果可应用于提升大语言模型的可解释性和可控性。通过理解SAE中的潜在特征，可以更好地理解LLM的内部运作机制，从而改进模型设计、优化训练过程，并提高模型在特定任务上的性能。此外，该方法还可用于分析不同LLM之间的相似性和差异性。

📄 摘要（原文）

While the activations of neurons in deep neural networks usually do not have a simple human-understandable interpretation, sparse autoencoders (SAEs) can be used to transform these activations into a higher-dimensional latent space which may be more easily interpretable. However, these SAEs can have millions of distinct latent features, making it infeasible for humans to manually interpret each one. In this work, we build an open-source automated pipeline to generate and evaluate natural language explanations for SAE features using LLMs. We test our framework on SAEs of varying sizes, activation functions, and losses, trained on two different open-weight LLMs. We introduce five new techniques to score the quality of explanations that are cheaper to run than the previous state of the art. One of these techniques, intervention scoring, evaluates the interpretability of the effects of intervening on a feature, which we find explains features that are not recalled by existing methods. We propose guidelines for generating better explanations that remain valid for a broader set of activating contexts, and discuss pitfalls with existing scoring techniques. We use our explanations to measure the semantic similarity of independently trained SAEs, and find that SAEs trained on nearby layers of the residual stream are highly similar. Our large-scale analysis confirms that SAE latents are indeed much more interpretable than neurons, even when neurons are sparsified using top-$k$ postprocessing. Our code is available at https://github.com/EleutherAI/sae-auto-interp, and our explanations are available at https://huggingface.co/datasets/EleutherAI/auto_interp_explanations.

Automatically Interpreting Millions of Features in Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理