A Survey on Sparse Autoencoders: Interpreting the Internal Mechanisms of Large Language Models

作者: Dong Shu, Xuansheng Wu, Haiyan Zhao, Daking Rai, Ziyu Yao, Ninghao Liu, Mengnan Du

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-03-07 (更新: 2025-09-23)

备注: EMNLP 2025 Findings

💡 一句话要点

综述论文：稀疏自编码器用于理解大型语言模型的内部机制

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 稀疏自编码器 大型语言模型 可解释性 机制可解释性 特征解耦

📋 核心要点

大型语言模型内部机制复杂，缺乏透明度，现有方法难以有效理解其内部运作。
利用稀疏自编码器（SAEs）将LLM中复杂的特征解耦为更易解释的组件，从而实现对LLM内部机制的理解。
该综述全面探讨了SAE在LLM可解释性中的应用，包括技术框架、解释方法、评估指标和实际应用。

📝 摘要（中文）

大型语言模型（LLMs）已经改变了自然语言处理领域，但其内部机制在很大程度上仍然不透明。最近，机制可解释性作为理解LLMs内部运作的一种手段，受到了研究界的广泛关注。在各种机制可解释性方法中，稀疏自编码器（SAEs）因其能够将LLMs中复杂的、叠加的特征分解为更易于解释的组件而成为一种有前途的方法。本文对使用SAEs来解释和理解LLMs内部运作进行了全面的综述。我们的主要贡献包括：（1）探索SAEs的技术框架，涵盖基本架构、设计改进和有效的训练策略；（2）研究解释SAE特征的不同方法，分为基于输入和基于输出的解释方法；（3）讨论评估SAE性能的评估方法，涵盖结构和功能指标；（4）研究SAEs在理解和操纵LLM行为方面的实际应用。

🔬 方法详解

问题定义：该论文旨在解决大型语言模型（LLMs）内部机制不透明的问题。现有方法难以有效理解LLMs的内部运作，这阻碍了我们对LLMs行为的控制和改进。因此，需要一种能够揭示LLMs内部特征表示的方法。

核心思路：论文的核心思路是利用稀疏自编码器（SAEs）来学习LLMs内部的稀疏特征表示。SAEs通过学习一个编码器和一个解码器，将LLMs的内部激活向量映射到一个稀疏的隐藏表示，然后再重构回原始激活向量。这种稀疏性约束鼓励SAEs学习到更具解释性的特征。

技术框架：SAEs的技术框架主要包括三个部分：编码器、解码器和稀疏性约束。编码器将LLMs的内部激活向量映射到一个隐藏表示。解码器将隐藏表示重构回原始激活向量。稀疏性约束通过添加一个正则化项到损失函数中，鼓励隐藏表示的稀疏性。整体流程是：首先从LLM中提取激活向量，然后使用SAE进行训练，最后分析SAE学习到的稀疏特征。

关键创新：该论文的关键创新在于系统性地综述了SAEs在理解LLMs内部机制方面的应用。它不仅涵盖了SAEs的基本架构和训练方法，还深入探讨了如何解释SAE学习到的特征，以及如何评估SAE的性能。此外，该论文还讨论了SAEs在操纵LLMs行为方面的实际应用。

关键设计：SAEs的关键设计包括：(1) 编码器和解码器的网络结构，通常使用线性层或多层感知机；(2) 稀疏性约束的类型，例如L1正则化或KL散度；(3) 损失函数的设计，通常包括重构损失和稀疏性损失；(4) 训练策略，例如使用Adam优化器和学习率衰减。

🖼️ 关键图片

fig_0

fig_1

fig_2

📊 实验亮点

该综述总结了SAEs在理解和操纵LLM行为方面的多种应用，并对SAEs的结构和功能评估方法进行了详细的阐述。通过对现有研究的分析，该综述为未来研究SAEs在LLM可解释性方面的应用提供了有价值的指导。

🎯 应用场景

该研究成果可应用于提升大型语言模型的可解释性和可控性，例如，通过理解模型内部的知识表示，可以更好地进行知识编辑和模型调试。此外，该方法还可以用于检测和缓解模型中的偏见和有害内容，从而提高模型的安全性。

📄 摘要（原文）

Large Language Models (LLMs) have transformed natural language processing, yet their internal mechanisms remain largely opaque. Recently, mechanistic interpretability has attracted significant attention from the research community as a means to understand the inner workings of LLMs. Among various mechanistic interpretability approaches, Sparse Autoencoders (SAEs) have emerged as a promising method due to their ability to disentangle the complex, superimposed features within LLMs into more interpretable components. This paper presents a comprehensive survey of SAEs for interpreting and understanding the internal workings of LLMs. Our major contributions include: (1) exploring the technical framework of SAEs, covering basic architecture, design improvements, and effective training strategies; (2) examining different approaches to explaining SAE features, categorized into input-based and output-based explanation methods; (3) discussing evaluation methods for assessing SAE performance, covering both structural and functional metrics; and (4) investigating real-world applications of SAEs in understanding and manipulating LLM behaviors.