Conceptualizing Embeddings: Sparse Disentanglement for Vision-Language Models
作者: Piotr Kubaty, Patryk Marszałek, Łukasz Struski, Adam Wróbel, Jacek Tabor, Marek Śmieja
分类: cs.CV, cs.LG
发布日期: 2026-05-21
💡 一句话要点
提出CEDAR,通过稀疏解耦变换提升视觉-语言模型嵌入的可解释性,无需增加维度。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言模型 嵌入解耦 稀疏表示 可解释性 后处理方法
📋 核心要点
- 视觉-语言模型嵌入语义不透明,现有稀疏自编码器需扩展维度,破坏原始几何结构并引入冗余。
- CEDAR通过学习可逆变换,将语义信息集中到轴对齐的解耦坐标中,无需增加维度。
- 实验表明,CEDAR在重建-稀疏性权衡上表现出色,生成更易于理解且符合人类感知的解释。
📝 摘要(中文)
视觉-语言模型学习到强大的多模态嵌入,但其内部语义仍然不透明。虽然稀疏自编码器(SAE)可以提取可解释的特征,但它们依赖于扩展表示维度,这会损害原始几何结构并引入冗余。我们引入CEDAR(通过自适应旋转进行概念嵌入解耦),这是一种后处理方法,可以在不增加维度的情况下揭示预训练嵌入的组合结构。通过学习具有top-$k$稀疏瓶颈的可逆变换,CEDAR将语义信息集中到轴对齐的解耦坐标中。在类似CLIP的架构中,单个坐标可以用文本概念来解释,而对于像BLIP这样的生成模型,它们可以被解码成自然语言描述。实验表明,CEDAR实现了具有竞争力的重建-稀疏性权衡,同时产生更易于解释且与人类感知更好地对齐的解释。我们的结果表明,视觉-语言表示中明显的纠缠可以通过适当的基变换来解决,从而消除了过度完备扩展的需要。
🔬 方法详解
问题定义:视觉-语言模型(VLM)的嵌入空间虽然强大,但其内部语义高度纠缠,难以解释。现有的稀疏自编码器(SAE)方法虽然可以提取可解释的特征,但通常需要增加嵌入的维度,这不仅破坏了原始嵌入空间的几何结构,还会引入不必要的冗余,使得模型更加复杂。
核心思路:CEDAR的核心思路是通过学习一个可逆的稀疏变换,将原始的纠缠嵌入空间转换到一个解耦的嵌入空间。在这个新的空间中,每个坐标轴都对应一个独立的语义概念,从而提高模型的可解释性。关键在于,CEDAR避免了增加维度,而是通过旋转和稀疏化操作,在保持原始信息的同时,将语义信息集中到特定的坐标轴上。
技术框架:CEDAR是一个后处理框架,可以应用于预训练的视觉-语言模型,如CLIP和BLIP。其主要流程包括:1) 使用预训练的VLM提取视觉或文本嵌入;2) 使用CEDAR学习一个可逆的稀疏变换,将原始嵌入转换到解耦空间;3) 对解耦后的坐标进行解释,例如,将每个坐标与文本概念或自然语言描述关联起来。
关键创新:CEDAR最重要的创新在于它能够在不增加嵌入维度的情况下,实现嵌入空间的解耦。这与传统的稀疏自编码器方法形成鲜明对比,后者通常需要通过增加维度来获得稀疏表示。CEDAR通过学习一个可逆的旋转变换,并施加稀疏性约束,从而在保持原始信息的同时,将语义信息集中到特定的坐标轴上。
关键设计:CEDAR的关键设计包括:1) 使用可逆的线性变换(旋转矩阵)来保持信息的完整性;2) 引入top-$k$稀疏瓶颈,强制模型学习稀疏表示,即每个嵌入向量只有少数几个非零元素;3) 使用重建损失来保证变换后的嵌入能够尽可能地还原原始嵌入;4) 使用稀疏性损失来鼓励模型学习稀疏表示。具体来说,损失函数通常包含重建损失和稀疏性损失两部分,通过调整两者的权重来平衡重建精度和稀疏性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CEDAR在保持竞争力的重建性能的同时,显著提高了嵌入空间的可解释性。与基线方法相比,CEDAR生成的解释更符合人类的感知,并且能够更好地与文本概念对齐。例如,在CLIP模型上,CEDAR能够将单个坐标与特定的文本概念(如“天空”、“人脸”)关联起来,从而更好地理解模型的内部表示。
🎯 应用场景
CEDAR可应用于提升视觉-语言模型的可解释性,例如,理解模型如何基于图像特征生成文本描述。它还可用于改进模型的编辑能力,通过操作解耦后的坐标来修改图像或文本的语义。此外,该方法在机器人导航、图像检索等领域也具有潜在应用价值,能够帮助模型更好地理解和利用多模态信息。
📄 摘要(原文)
Vision-language models learn powerful multimodal embeddings, yet their internal semantics remain opaque. While sparse autoencoders (SAEs) can extract interpretable features, they rely on expanding the representation dimension, which compromises the original geometry and introduces redundancy. We introduce CEDAR (Conceptual Embedding Disentanglement via Adaptive Rotation), a post-hoc method that reveals the compositional structure of pretrained embeddings without increasing dimensionality. By learning an invertible transformation with a top-$k$ sparsity bottleneck, CEDAR concentrates semantic information into axis-aligned disentangled coordinates. In CLIP-like architecture, individual coordinates can be interpreted with textual concepts, while for generative models such as BLIP, they can be decoded into natural language descriptions. Experiments demonstrate that CEDAR achieves a competitive reconstruction-sparsity trade-off while producing explanations that are more interpretable and better aligned with human perception. Our results suggest that the apparent entanglement in vision-language representations can be resolved through a suitable change of basis, eliminating the need for overcomplete expansions.