Interpreting CLIP with Hierarchical Sparse Autoencoders

📄 arXiv: 2502.20578v2 📥 PDF

作者: Vladimir Zaigrajew, Hubert Baniecki, Przemyslaw Biecek

分类: cs.CV, cs.AI, cs.LG

发布日期: 2025-02-27 (更新: 2025-05-28)

期刊: Proceedings of the 42st International Conference on Machine Learning (ICML 2025)

🔗 代码/项目: GITHUB


💡 一句话要点

提出Matryoshka SAE,用于CLIP模型的可解释性分析与控制。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 稀疏自编码器 可解释性 视觉-语言模型 CLIP模型 分层表示

📋 核心要点

  1. 现有SAE方法在优化神经网络的可解释性特征时,难以兼顾重建质量和稀疏性,限制了其在CLIP等大型模型上的应用。
  2. 论文提出Matryoshka SAE (MSAE),通过学习多粒度的分层表示,实现重建质量和稀疏性的直接优化,无需妥协。
  3. MSAE在CLIP模型上实现了显著的性能提升,并在概念提取、相似性搜索和偏差分析等任务中展示了其有效性。

📝 摘要(中文)

稀疏自编码器(SAEs)在神经网络中检测和引导可解释特征方面非常有用,尤其是在理解复杂的多模态表示方面具有潜力。鉴于其发现可解释特征的能力,SAEs对于分析大规模视觉-语言模型(例如CLIP和SigLIP)特别有价值,这些模型是现代系统的基本构建块,但仍然难以解释和控制。然而,当前的SAE方法受到同时优化重建质量和稀疏性的限制,因为它们依赖于激活抑制或刚性稀疏性约束。为此,我们引入了Matryoshka SAE (MSAE),这是一种新的架构,可以同时学习多个粒度的分层表示,从而可以直接优化这两个指标而不会妥协。MSAE为CLIP建立了重建质量和稀疏性之间新的最先进的Pareto前沿,在保持约80%稀疏性的同时,实现了0.99的余弦相似度和小于0.1的未解释方差分数。最后,我们通过从其表示中提取120多个语义概念,以在CelebA等下游任务中执行基于概念的相似性搜索和偏差分析,证明了MSAE作为解释和控制CLIP的工具的效用。代码库可在https://github.com/WolodjaZ/MSAE获得。

🔬 方法详解

问题定义:现有稀疏自编码器(SAEs)在应用于像CLIP这样的大型视觉-语言模型时,面临着重建质量和稀疏性难以兼顾的问题。传统的SAE方法要么通过激活抑制来强制稀疏性,要么采用刚性的稀疏性约束,这两种方式都会影响模型的重建能力,从而限制了其在复杂多模态表示上的应用。因此,如何设计一种既能保证模型重建质量,又能实现高稀疏性的SAE,成为了一个关键问题。

核心思路:MSAE的核心思路是学习多粒度的分层表示。通过构建一个层次化的自编码器结构,MSAE能够同时捕捉到不同抽象层次的特征。这种设计允许模型在保持高稀疏性的同时,仍然能够有效地重建原始输入。关键在于,不同层次的特征可以互补,从而在整体上提升重建质量。

技术框架:MSAE的技术框架主要包含一个层次化的编码器和一个相应的解码器。编码器将输入数据分解为多个不同粒度的表示,每个粒度对应一个稀疏的特征向量。解码器则将这些不同粒度的特征向量组合起来,重建原始输入。整个框架通过联合优化所有层次的重建损失和稀疏性损失来进行训练。

关键创新:MSAE最重要的创新在于其层次化的结构和联合优化策略。传统的SAE方法通常只学习单一粒度的特征表示,而MSAE则能够学习多个粒度的特征表示,从而更好地捕捉输入数据的复杂结构。此外,MSAE通过联合优化所有层次的重建损失和稀疏性损失,实现了重建质量和稀疏性之间的平衡。

关键设计:MSAE的关键设计包括:1) 层次化的编码器和解码器结构,每一层对应不同的特征粒度;2) 稀疏性约束,例如L1正则化,用于鼓励特征的稀疏性;3) 重建损失函数,例如均方误差或余弦相似度,用于衡量重建质量;4) 联合优化策略,通过调整不同损失函数的权重,平衡重建质量和稀疏性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MSAE在CLIP模型上实现了显著的性能提升,在保持约80%稀疏性的同时,实现了0.99的余弦相似度和小于0.1的未解释方差分数。此外,MSAE还成功地从CLIP的表示中提取了120多个语义概念,并在CelebA数据集上进行了基于概念的相似性搜索和偏差分析,验证了其在可解释性分析方面的有效性。

🎯 应用场景

MSAE在视觉-语言模型的可解释性分析和控制方面具有广泛的应用前景。例如,可以利用MSAE提取模型中的语义概念,进行基于概念的相似性搜索和偏差分析。此外,MSAE还可以用于改进模型的鲁棒性和泛化能力,例如通过对抗训练或数据增强等方式。

📄 摘要(原文)

Sparse autoencoders (SAEs) are useful for detecting and steering interpretable features in neural networks, with particular potential for understanding complex multimodal representations. Given their ability to uncover interpretable features, SAEs are particularly valuable for analyzing large-scale vision-language models (e.g., CLIP and SigLIP), which are fundamental building blocks in modern systems yet remain challenging to interpret and control. However, current SAE methods are limited by optimizing both reconstruction quality and sparsity simultaneously, as they rely on either activation suppression or rigid sparsity constraints. To this end, we introduce Matryoshka SAE (MSAE), a new architecture that learns hierarchical representations at multiple granularities simultaneously, enabling a direct optimization of both metrics without compromise. MSAE establishes a new state-of-the-art Pareto frontier between reconstruction quality and sparsity for CLIP, achieving 0.99 cosine similarity and less than 0.1 fraction of variance unexplained while maintaining ~80% sparsity. Finally, we demonstrate the utility of MSAE as a tool for interpreting and controlling CLIP by extracting over 120 semantic concepts from its representation to perform concept-based similarity search and bias analysis in downstream tasks like CelebA. We make the codebase available at https://github.com/WolodjaZ/MSAE.