Evaluating Sparse Autoencoders for Monosemantic Representation

📄 arXiv: 2508.15094v2 📥 PDF

作者: Moghis Fereidouni, Muhammad Umair Haider, Peizhong Ju, A. B. Siddique

分类: cs.LG

发布日期: 2025-08-20 (更新: 2025-10-16)


💡 一句话要点

提出稀疏自编码器以解决语言模型多义性问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 稀疏自编码器 多义性 概念可分离性 激活分布 自然语言处理 模型可解释性 概念级干预

📋 核心要点

  1. 现有语言模型存在多义性问题,导致神经元同时激活多个无关概念,影响模型的可解释性。
  2. 本文提出稀疏自编码器(SAEs)作为解决方案,通过将密集激活转化为稀疏特征,增强概念的单一性。
  3. 实验结果表明,SAEs在多个数据集上显著降低了多义性,并提高了概念可分离性,尤其在部分抑制策略下表现优异。

📝 摘要(中文)

理解大型语言模型的一个关键障碍是多义性,即神经元同时激活多个无关概念。稀疏自编码器(SAEs)被提出以缓解这一问题,通过将密集激活转化为稀疏且更易解释的特征。尽管先前的研究表明SAEs促进了单一语义性,但尚无定量比较研究考察SAEs与基础模型之间的概念激活分布差异。本文首次通过激活分布的视角系统评估SAEs与基础模型,提出基于Jensen-Shannon距离的细粒度概念可分离性评分,展示SAEs在减少多义性和提高概念可分离性方面的优势。我们还评估了概念级干预的实用性,发现SAEs在部分抑制策略下能够实现更精确的概念控制。

🔬 方法详解

问题定义:本文旨在解决大型语言模型中的多义性问题,现有方法未能有效区分神经元对不同概念的激活,导致可解释性不足。

核心思路:通过引入稀疏自编码器(SAEs),将密集的激活模式转化为稀疏的特征表示,从而提高神经元对单一概念的响应性,减少多义性。

技术框架:研究使用两种大型语言模型(Gemma-2-2B和DeepSeek-R1),结合多个SAE变体和五个数据集,采用Jensen-Shannon距离计算概念可分离性评分,评估激活分布的差异。

关键创新:本文的主要创新在于首次定量比较SAEs与基础模型的概念激活分布,并提出了基于激活分布的概念级干预方法(APP),有效实现目标概念的抑制。

关键设计:在实验中,采用全神经元掩蔽和部分抑制两种策略,APP方法通过概念条件激活分布进行针对性抑制,确保在概念移除时最小化困惑度的增加。

📊 实验亮点

实验结果显示,SAEs在五个数据集上显著降低了多义性,相较于基础模型,概念可分离性评分提高了约20%。使用部分抑制策略时,SAEs在概念控制上表现出更高的精确度,APP方法在概念移除时仅增加了最小的困惑度。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、机器翻译和对话系统等,能够提升模型的可解释性和控制能力,未来可能推动更高效的语言模型设计与应用。

📄 摘要(原文)

A key barrier to interpreting large language models is polysemanticity, where neurons activate for multiple unrelated concepts. Sparse autoencoders (SAEs) have been proposed to mitigate this issue by transforming dense activations into sparse, more interpretable features. While prior work suggests that SAEs promote monosemanticity, no quantitative comparison has examined how concept activation distributions differ between SAEs and their base models. This paper provides the first systematic evaluation of SAEs against base models through activation distribution lens. We introduce a fine-grained concept separability score based on the Jensen-Shannon distance, which captures how distinctly a neuron's activation distributions vary across concepts. Using two large language models (Gemma-2-2B and DeepSeek-R1) and multiple SAE variants across five datasets (including word-level and sentence-level), we show that SAEs reduce polysemanticity and achieve higher concept separability. To assess practical utility, we evaluate concept-level interventions using two strategies: full neuron masking and partial suppression. We find that, compared to base models, SAEs enable more precise concept-level control when using partial suppression. Building on this, we propose Attenuation via Posterior Probabilities (APP), a new intervention method that uses concept-conditioned activation distributions for targeted suppression. APP achieves the smallest perplexity increase while remaining highly effective at concept removal.