Steering LLMs? Actually, Sparse Autoencoders can outperform simple baselines

📄 arXiv: 2605.31183v1 📥 PDF

作者: Mikkel Godsk Jørgensen, Lars Kai Hansen

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-05-29


💡 一句话要点

通过监督式特征选择,稀疏自编码器在LLM引导任务上可媲美LoRA

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型引导 稀疏自编码器 特征选择 可解释性 因果关系 AxBench基准 监督学习

📋 核心要点

  1. 现有研究表明稀疏自编码器在引导LLM输出方面表现不佳,未能达到预期效果,面临性能挑战。
  2. 本文提出一种监督式特征选择pipeline,用于选择和标记稀疏自编码器的特征,以提升引导性能。
  3. 实验结果表明,该方法使稀疏自编码器在AxBench基准上达到与LoRA相近的性能,并发现高稀疏性可能并非引导成功的关键。

📝 摘要(中文)

稀疏自编码器(SAE)曾被认为是探索大型语言模型(LLM)内部机制和引导模型输出生成的有希望的途径。然而,在Wu et al. (2025)提出的模型引导基准AxBench中,相对于一些简单的基线方法,SAE的引导性能不佳,使其未能达到最初的期望。本文对稀疏自编码器进行了部分反驳,并指出Wu et al. (2025)的结果并未完全体现其优势。我们发现,当使用我们有监督的pipeline选择和标记特征时,稀疏自编码器实际上可以在AxBench基准上达到与参考LoRA性能相近的水平。我们还发现,仅使用基于可解释性的组件时,我们的pipeline选择的特征出人意料地与其识别的标签具有因果关系。最后,我们提供的证据表明,高稀疏性(低l0范数)对于基于可解释性的成功引导可能并非至关重要,这与Wang et al. (2025)的早期发现相反。

🔬 方法详解

问题定义:论文旨在解决稀疏自编码器(SAE)在引导大型语言模型(LLM)输出时性能不佳的问题。现有研究表明,SAE在AxBench等基准测试中,其引导性能不如简单的基线方法,这与其最初被认为具有的潜力不符。因此,论文试图重新评估SAE在LLM引导任务中的能力,并探究提升其性能的方法。

核心思路:论文的核心思路是通过引入监督式特征选择pipeline来改善SAE的引导性能。该pipeline旨在选择与特定概念或属性相关的SAE特征,并使用监督学习方法对其进行标记。通过这种方式,可以更精确地控制SAE激活,从而更有效地引导LLM的输出。

技术框架:论文提出的技术框架主要包含以下几个阶段:1) 使用稀疏自编码器训练LLM的中间层表示;2) 设计监督式特征选择pipeline,该pipeline包含特征选择和特征标记两个主要步骤;3) 使用选择和标记后的特征来引导LLM的输出生成;4) 在AxBench基准上评估引导性能,并与LoRA等基线方法进行比较。

关键创新:论文的关键创新在于提出了一个监督式特征选择pipeline,用于选择和标记稀疏自编码器的特征。该pipeline能够有效地识别与特定概念相关的特征,并提高SAE在LLM引导任务中的性能。此外,论文还发现高稀疏性可能并非基于可解释性的成功引导的关键因素,这与之前的研究结果相悖。

关键设计:论文的关键设计包括:1) 特征选择方法:具体选择方法未知,但强调了其监督性质,可能涉及使用标签信息来选择与特定概念相关的特征;2) 特征标记方法:使用监督学习方法对选择的特征进行标记,以便更精确地控制其激活;3) 引导策略:如何使用选择和标记后的特征来引导LLM的输出生成,具体细节未知;4) 实验设置:在AxBench基准上进行评估,并与LoRA等基线方法进行比较。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,通过监督式特征选择pipeline,稀疏自编码器在AxBench基准上可以达到与LoRA相近的性能。此外,研究还发现,仅使用基于可解释性的组件时,该pipeline选择的特征出人意料地与其识别的标签具有因果关系。同时,研究结果表明高稀疏性可能并非基于可解释性的成功引导的关键因素。

🎯 应用场景

该研究成果可应用于提升大型语言模型的可控性和安全性。通过精确引导模型的输出,可以减少有害信息的生成,并提高模型在特定任务中的性能。此外,该方法还有助于理解LLM的内部机制,为模型的可解释性研究提供新的思路。

📄 摘要(原文)

Sparse Autoencoders (SAEs) have been seen as a promising avenue for exploring the internals of Large Language Models (LLMs) and for steering model output generation. When AxBench - a model steering benchmark - was introduced in Wu et al. (2025), SAEs did not seem to live up to their original hype due to poor steering performance relative to a set of simple baselines. This work serves as a partial rebuttal for Sparse Autoencoders and suggests that the results of Wu et al. (2025) did not do them full justice. We find that Sparse Autoencoders can, in fact, perform close to on par with the reference LoRA performance on the AxBench benchmark, when features are selected and labelled with our supervised pipeline. We also find that our pipeline selects features that are surprisingly causal of their identified labels when using only its interpretability-based components. Lastly, we present evidence that high sparsity (low l0) may not be crucial for successful steering based on interpretability, which is in contrast to the earlier findings in Wang et al. (2025).