Improving Sparse Autoencoder with Dynamic Attention
作者: Dongsheng Wang, Jinsen Zhang, Dawei Su, Hui Huang
分类: cs.LG, cs.AI
发布日期: 2026-04-16
💡 一句话要点
提出基于动态稀疏注意力的稀疏自编码器,提升特征解耦与重建效果
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 稀疏自编码器 动态注意力 Sparsemax 特征解耦 可解释性 交叉注意力 深度学习 表示学习
📋 核心要点
- 现有稀疏自编码器难以确定每个神经元的最佳稀疏度,导致重建效果和可解释性之间的权衡。
- 提出一种基于动态稀疏注意力的稀疏自编码器,利用sparsemax自动推断稀疏元素,实现数据依赖的激活。
- 实验表明,该方法在降低重建损失的同时,能够产生高质量的概念,尤其是在top-n分类任务中表现出色。
📝 摘要(中文)
近年来,稀疏自编码器(SAE)已成为一种有前景的技术,通过将特征解耦为稀疏的概念集来解释基础模型中的激活。然而,在实践中,为每个神经元确定最佳稀疏度仍然具有挑战性:过度稀疏会导致较差的重建,而稀疏度不足可能会损害可解释性。虽然现有的激活函数(如ReLU和TopK)提供了一定的稀疏性保证,但它们通常需要额外的稀疏性正则化或精心挑选的超参数。本文表明,使用sparsemax的动态稀疏注意力机制可以弥合这种权衡,因为它能够以数据依赖的方式确定激活数量。具体来说,我们首先探索了一种新的SAE,它基于交叉注意力架构,其中潜在特征作为查询,可学习的字典作为键和值矩阵。为了鼓励稀疏模式学习,我们采用了一种基于sparsemax的注意力策略,该策略根据每个神经元的复杂性自动推断一组稀疏元素,从而产生更灵活和通用的激活函数。通过全面的评估和可视化,我们表明我们的方法成功地实现了较低的重建损失,同时产生了高质量的概念,尤其是在top-n分类任务中。
🔬 方法详解
问题定义:论文旨在解决稀疏自编码器(SAE)中稀疏度选择的问题。现有方法,如ReLU和TopK,虽然能保证一定的稀疏性,但需要额外的正则化或手动调整超参数,难以在重建质量和可解释性之间取得平衡。
核心思路:论文的核心思路是利用动态稀疏注意力机制,特别是sparsemax函数,来自动地、数据依赖地确定每个神经元的激活数量。这种方法允许模型根据神经元的复杂性自适应地调整稀疏度,从而在重建质量和可解释性之间找到更好的平衡。
技术框架:该方法基于交叉注意力架构的SAE。其主要流程如下:1) 输入特征经过编码器得到潜在特征;2) 将潜在特征作为查询(Query),可学习的字典作为键(Key)和值(Value)矩阵;3) 使用sparsemax注意力机制计算注意力权重,并加权求和得到输出;4) 解码器将输出重建为原始输入。
关键创新:关键创新在于使用sparsemax注意力机制来实现动态稀疏性。与传统的静态稀疏方法不同,sparsemax能够根据输入数据自适应地选择激活的神经元,从而更好地捕捉数据的内在结构。这种动态稀疏性使得模型能够更灵活地学习稀疏表示,同时保持较高的重建质量。
关键设计:论文使用交叉注意力机制,其中潜在特征作为查询,可学习的字典作为键和值。sparsemax函数被用于计算注意力权重,其关键在于它能够产生稀疏的概率分布,从而实现动态稀疏性。损失函数主要包括重建损失(例如均方误差)和可能的稀疏性正则化项(虽然sparsemax本身已经提供了稀疏性,但可以根据需要添加额外的正则化)。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在重建损失方面优于现有方法,同时能够产生高质量的概念。特别是在top-n分类任务中,该方法表现出色,验证了其在特征解耦和可解释性方面的优势。通过可视化分析,也证实了该方法能够学习到更稀疏和更具语义意义的特征表示。
🎯 应用场景
该研究成果可应用于各种需要特征解耦和可解释性的领域,例如:计算机视觉中的图像识别和目标检测,自然语言处理中的文本分类和情感分析,以及生物信息学中的基因表达分析。通过学习稀疏且可解释的特征表示,可以提高模型的可解释性、鲁棒性和泛化能力。
📄 摘要(原文)
Recently, sparse autoencoders (SAEs) have emerged as a promising technique for interpreting activations in foundation models by disentangling features into a sparse set of concepts. However, identifying the optimal level of sparsity for each neuron remains challenging in practice: excessive sparsity can lead to poor reconstruction, whereas insufficient sparsity may harm interpretability. While existing activation functions such as ReLU and TopK provide certain sparsity guarantees, they typically require additional sparsity regularization or cherry-picked hyperparameters. We show in this paper that dynamically sparse attention mechanisms using sparsemax can bridge this trade-off, due to their ability to determine the activation numbers in a data-dependent manner. Specifically, we first explore a new class of SAEs based on the cross-attention architecture with the latent features as queries and the learnable dictionary as the key and value matrices. To encourage sparse pattern learning, we employ a sparsemax-based attention strategy that automatically infers a sparse set of elements according to the complexity of each neuron, resulting in a more flexible and general activation function. Through comprehensive evaluation and visualization, we show that our approach successfully achieves lower reconstruction loss while producing high-quality concepts, particularly in top-n classification tasks.