Beyond Redundancy: Diverse and Specialized Multi-Expert Sparse Autoencoder

📄 arXiv: 2511.05745v1 📥 PDF

作者: Zhen Xu, Zhen Tan, Song Wang, Kaidi Xu, Tianlong Chen

分类: cs.LG, cs.AI

发布日期: 2025-11-07


💡 一句话要点

提出多样化专家混合稀疏自编码器,提升大语言模型的可解释性与效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 稀疏自编码器 专家混合模型 大语言模型 可解释性 特征多样性

📋 核心要点

  1. 现有MoE-SAE方法中,专家网络未能有效专业化,学习到大量重叠或冗余的特征,限制了解释效率。
  2. 提出多专家激活和特征缩放两种创新方法,鼓励专家学习不同的特征,提升特征多样性。
  3. 实验结果表明,新方法显著降低了重建误差和特征冗余度,提升了解释效率和模型可解释性。

📝 摘要(中文)

稀疏自编码器(SAEs)已成为解释大型语言模型(LLMs)的强大工具,它将token激活分解为人类可理解的特征组合。虽然SAEs为LLM解释提供了关键见解,但其实际应用面临一个根本挑战:更好的可解释性要求SAEs的隐藏层具有高维度以满足稀疏性约束,从而导致过高的训练和推理成本。最近的专家混合(MoE)方法试图通过将SAEs划分为具有门控激活的更窄的专家网络来解决这个问题,从而降低计算量。在一个精心设计的MoE中,每个专家应该专注于学习一组不同的特征。然而,我们发现MoE-SAE中存在一个关键限制:专家通常无法专门化,这意味着它们经常学习重叠或相同的特征。为了解决这个问题,我们提出了两个关键创新:(1)同时激活语义加权的专家子集的多专家激活,以鼓励专业化,以及(2)通过自适应高频缩放来增强多样性的特征缩放。实验表明,与现有的MoE-SAE方法相比,重建误差降低了24%,特征冗余度降低了99%。这项工作弥合了LLM分析中可解释性与效率之间的差距,从而可以在不影响计算可行性的情况下进行透明的模型检查。

🔬 方法详解

问题定义:论文旨在解决MoE-SAE中专家网络专业化程度不足的问题。现有的MoE-SAE方法中,各个专家网络倾向于学习相似或重复的特征,导致计算资源的浪费,并且降低了模型的可解释性。高维度SAE的训练和推理成本过高,限制了其在大规模LLM中的应用。

核心思路:论文的核心思路是通过鼓励专家网络学习不同的特征来提高MoE-SAE的效率和可解释性。具体来说,通过多专家激活机制,使得不同的输入激活不同的专家子集,从而促使专家学习不同的特征。此外,通过特征缩放,增强高频特征的权重,进一步提高特征的多样性。

技术框架:整体框架基于MoE-SAE,包含输入层、专家层和输出层。输入层接收token激活向量,专家层由多个专家网络组成,每个专家网络是一个稀疏自编码器。输出层重建输入向量。关键在于专家层的激活方式和特征缩放。多专家激活机制根据输入token的语义信息,选择性地激活一部分专家网络。特征缩放则对专家网络学习到的特征进行频率分析,并对高频特征进行放大。

关键创新:论文的关键创新在于多专家激活和特征缩放。多专家激活允许不同的输入激活不同的专家子集,从而鼓励专家学习不同的特征。特征缩放通过增强高频特征的权重,进一步提高特征的多样性。这与传统的MoE-SAE方法中所有专家网络对所有输入都进行处理的方式不同,也与简单的L1正则化等稀疏化方法不同。

关键设计:多专家激活的关键在于如何确定激活哪些专家。论文中可能使用了某种注意力机制或相似度度量来计算输入token与各个专家之间的相关性,并根据相关性选择激活的专家子集。特征缩放的关键在于如何确定特征的频率。论文可能使用了傅里叶变换或其他频率分析方法来计算特征的频率,并根据频率对特征进行缩放。损失函数可能包含重建损失、稀疏性损失以及鼓励专家多样性的损失项。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,与现有的MoE-SAE方法相比,该方法在重建误差方面降低了24%,在特征冗余度方面降低了99%。这表明该方法能够更有效地学习到具有代表性的特征,并且显著提高了模型的效率和可解释性。这些结果验证了多专家激活和特征缩放的有效性。

🎯 应用场景

该研究成果可应用于大型语言模型的可解释性分析,帮助研究人员理解模型的内部运作机制,发现潜在的偏差或安全问题。此外,该方法还可以用于模型压缩和加速,通过减少冗余计算来提高模型的效率。未来,该技术有望应用于更广泛的AI模型可解释性领域。

📄 摘要(原文)

Sparse autoencoders (SAEs) have emerged as a powerful tool for interpreting large language models (LLMs) by decomposing token activations into combinations of human-understandable features. While SAEs provide crucial insights into LLM explanations, their practical adoption faces a fundamental challenge: better interpretability demands that SAEs' hidden layers have high dimensionality to satisfy sparsity constraints, resulting in prohibitive training and inference costs. Recent Mixture of Experts (MoE) approaches attempt to address this by partitioning SAEs into narrower expert networks with gated activation, thereby reducing computation. In a well-designed MoE, each expert should focus on learning a distinct set of features. However, we identify a \textit{critical limitation} in MoE-SAE: Experts often fail to specialize, which means they frequently learn overlapping or identical features. To deal with it, we propose two key innovations: (1) Multiple Expert Activation that simultaneously engages semantically weighted expert subsets to encourage specialization, and (2) Feature Scaling that enhances diversity through adaptive high-frequency scaling. Experiments demonstrate a 24\% lower reconstruction error and a 99\% reduction in feature redundancy compared to existing MoE-SAE methods. This work bridges the interpretability-efficiency gap in LLM analysis, allowing transparent model inspection without compromising computational feasibility.