Analyzing Hierarchical Structure in Vision Models with Sparse Autoencoders
作者: Matthew Lyle Olson, Musashi Hinck, Neale Ratzlaff, Changbai Li, Phillip Howard, Vasudev Lal, Shao-Yen Tseng
分类: cs.CV, cs.LG
发布日期: 2025-05-21
备注: (Oral) CVPR 2025 Workshop on Mechanistic Interpretability for Vision. Authors 1 and 2 contributed equally
💡 一句话要点
利用稀疏自编码器分析视觉模型中的层级结构,揭示ImageNet层级信息的编码方式。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 稀疏自编码器 视觉模型 层级结构 ImageNet 可解释性 表征学习 DINOv2
📋 核心要点
- 现有方法缺乏有效手段分析视觉模型如何编码如ImageNet等层级结构信息,阻碍了对模型内部机制的理解。
- 本文提出利用稀疏自编码器(SAE)作为探针,分析视觉模型内部表征与ImageNet层级结构之间的对齐关系。
- 实验表明,SAE能够揭示模型激活中的层级关系,并分析了DINOv2模型不同层级表征的一致性。
📝 摘要(中文)
本文利用稀疏自编码器(SAE)深入分析了视觉模型如何编码ImageNet层级结构。ImageNet层级结构提供了一个有价值的视角,用于分析深度视觉模型学习到的表征。SAE已广泛应用于大型语言模型(LLM)的解释工具,能够发现语义上有意义的特征。本文将其扩展到视觉模型,以研究学习到的表征是否与ImageNet分类法定义的本体结构对齐。结果表明,SAE揭示了模型激活中的层级关系,揭示了分类结构的隐式编码。分析了流行的视觉基础模型DINOv2不同层中这些表征的一致性,并深入了解了深度视觉模型如何通过增加每一层类别token中的信息来内化层级类别信息。本研究建立了一个系统分析视觉模型表征层级结构的框架,并强调了SAE作为探测深度网络语义结构的工具的潜力。
🔬 方法详解
问题定义:论文旨在解决如何理解深度视觉模型内部如何编码和表示层级结构信息的问题,特别是针对像ImageNet这样的具有明确层级关系的图像数据集。现有方法难以有效揭示模型内部表征与外部知识体系(如ImageNet层级结构)之间的联系,缺乏可解释性。
核心思路:论文的核心思路是利用稀疏自编码器(SAE)作为一种探针,去解码视觉模型内部的激活状态,并分析解码后的特征与ImageNet的层级结构之间的关系。通过观察SAE解码出的特征是否能够反映ImageNet的层级关系,从而推断视觉模型是否以及如何学习到了这种层级结构。
技术框架:整体框架包括以下几个主要步骤:1) 选择一个预训练的视觉模型(如DINOv2);2) 在该模型的不同层提取激活值;3) 使用这些激活值训练稀疏自编码器;4) 分析训练好的SAE解码出的特征,例如,观察哪些ImageNet类别激活了相同的SAE神经元,从而推断模型学习到的类别之间的关系;5) 评估这些关系与ImageNet层级结构的一致性。
关键创新:最重要的技术创新点在于将稀疏自编码器(SAE)应用于视觉模型的内部表征分析。SAE原本在自然语言处理领域用于发现语义上有意义的特征,本文将其成功扩展到视觉领域,用于揭示视觉模型如何编码层级结构信息。与传统的模型分析方法相比,SAE能够提供更细粒度、更可解释的特征表示。
关键设计:关键设计包括:1) 选择合适的稀疏自编码器结构,包括编码器和解码器的层数、神经元数量等;2) 设计合适的稀疏性约束,例如L1正则化,以鼓励SAE学习到稀疏的、具有代表性的特征;3) 选择合适的训练数据,例如ImageNet数据集,并根据需要进行预处理;4) 设计合适的评估指标,例如计算SAE解码出的特征与ImageNet层级结构之间的相关性。
📊 实验亮点
实验结果表明,SAE能够有效地揭示DINOv2模型内部的层级结构信息。具体来说,SAE解码出的特征能够反映ImageNet的层级关系,例如,同一层级的类别倾向于激活相同的SAE神经元。此外,研究还发现,随着模型层数的加深,类别token中包含的层级结构信息逐渐增加,表明模型在不断学习和提炼层级结构知识。
🎯 应用场景
该研究成果可应用于提升视觉模型的可解释性和可靠性。通过理解模型如何编码层级结构信息,可以更好地诊断模型的错误,并进行针对性的改进。此外,该方法还可以用于知识迁移,例如将一个模型学习到的层级结构知识迁移到另一个模型中。未来,该技术有望应用于自动驾驶、智能医疗等领域,提升AI系统的安全性和可靠性。
📄 摘要(原文)
The ImageNet hierarchy provides a structured taxonomy of object categories, offering a valuable lens through which to analyze the representations learned by deep vision models. In this work, we conduct a comprehensive analysis of how vision models encode the ImageNet hierarchy, leveraging Sparse Autoencoders (SAEs) to probe their internal representations. SAEs have been widely used as an explanation tool for large language models (LLMs), where they enable the discovery of semantically meaningful features. Here, we extend their use to vision models to investigate whether learned representations align with the ontological structure defined by the ImageNet taxonomy. Our results show that SAEs uncover hierarchical relationships in model activations, revealing an implicit encoding of taxonomic structure. We analyze the consistency of these representations across different layers of the popular vision foundation model DINOv2 and provide insights into how deep vision models internalize hierarchical category information by increasing information in the class token through each layer. Our study establishes a framework for systematic hierarchical analysis of vision model representations and highlights the potential of SAEs as a tool for probing semantic structure in deep networks.