Explaining How Visual, Textual and Multimodal Encoders Share Concepts

作者: Clément Cornet, Romaric Besançon, Hervé Le Borgne

分类: cs.CV, cs.AI

发布日期: 2025-07-24

🔗 代码/项目: GITHUB

💡 一句话要点

提出跨模态模型概念共享度量指标，用于比较视觉、文本和多模态编码器的特征表示。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 稀疏自编码器 跨模态学习 特征共享 模型可解释性 视觉语言模型

📋 核心要点

现有方法缺乏跨模态模型特征表示的定量比较手段，限制了对不同模态编码器概念共享的理解。
提出一种新的指标，用于量化跨模态模型（视觉、文本、多模态）之间SAE特征的共享程度，实现定量比较。
通过对21个不同类型和大小的编码器进行实验，揭示了视觉、文本和多模态模型之间特征共享的程度和模式。

📝 摘要（中文）

稀疏自编码器(SAEs)已成为从神经网络激活中提取人类可解释特征的强大技术。以往的研究基于SAE导出的特征比较不同的模型，但这些比较仅限于同一模态内的模型。我们提出了一种新的指标，允许对SAE特征进行跨模型的定量比较，并使用它来对视觉、文本和多模态编码器进行比较研究。我们还提出了量化不同模型类别之间各个特征的比较共享性。通过这两个新工具，我们对三种类型的21个编码器进行了多项研究，这些编码器具有两种显著不同的大小，并考虑了通用和特定领域的数据集。结果允许在多模态环境中训练的编码器的背景下重新审视先前的研究，并量化所有这些模型在多大程度上共享一些表示或特征。他们还表明，视觉编码器中特定于VLM的视觉特征与文本编码器共享，突出了文本预训练的影响。代码可在https://github.com/CEA-LIST/SAEshareConcepts获得。

🔬 方法详解

问题定义：现有研究主要集中在同一模态内的模型比较，缺乏跨模态模型特征表示的定量比较方法。这使得我们难以理解不同模态编码器之间概念共享的程度和方式，例如，视觉模型和文本模型在多大程度上共享某些特征表示？如何量化这种共享性？

核心思路：论文的核心思路是利用稀疏自编码器（SAEs）提取神经网络激活中的可解释特征，并设计一种新的指标来量化不同模态模型之间SAE特征的共享程度。通过比较不同模型中SAE特征的激活模式，可以推断它们是否共享相似的概念。

技术框架：整体框架包括以下几个步骤：1) 使用视觉、文本和多模态编码器提取特征；2) 使用稀疏自编码器（SAEs）从这些特征中提取可解释的特征表示；3) 设计并计算“比较共享性”指标，用于量化不同模型之间SAE特征的共享程度；4) 对比不同模型类别（视觉、文本、多模态）的共享性，分析结果。

关键创新：论文的关键创新在于提出了“比较共享性”指标，该指标能够定量地比较不同模态模型之间SAE特征的共享程度。以往的研究主要集中在同一模态内的模型比较，而该指标实现了跨模态的定量比较，为理解不同模态模型之间的关系提供了新的视角。

关键设计：论文的关键设计包括：1) 选择稀疏自编码器（SAEs）作为特征提取器，因为SAEs能够提取人类可解释的特征；2) 设计“比较共享性”指标，该指标基于SAE特征的激活模式来量化共享程度；3) 选择不同类型和大小的编码器进行实验，以验证该指标的有效性和泛化能力。具体的参数设置、损失函数和网络结构等技术细节在论文中没有详细说明，属于未知信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，视觉编码器中特定于视觉语言模型（VLM）的视觉特征与文本编码器共享，这突出了文本预训练对视觉特征表示的影响。此外，该研究还量化了不同模型类别之间特征共享的程度，为理解多模态模型提供了新的见解。具体的性能数据和提升幅度在摘要中未提及，属于未知信息。

🎯 应用场景

该研究成果可应用于多模态学习、跨模态检索、模型可解释性分析等领域。通过理解不同模态模型之间的概念共享，可以更好地设计多模态融合策略，提升跨模态检索的准确性，并增强模型的可解释性，从而提高模型在实际应用中的可靠性和效率。

📄 摘要（原文）

Sparse autoencoders (SAEs) have emerged as a powerful technique for extracting human-interpretable features from neural networks activations. Previous works compared different models based on SAE-derived features but those comparisons have been restricted to models within the same modality. We propose a novel indicator allowing quantitative comparison of models across SAE features, and use it to conduct a comparative study of visual, textual and multimodal encoders. We also propose to quantify the Comparative Sharedness of individual features between different classes of models. With these two new tools, we conduct several studies on 21 encoders of the three types, with two significantly different sizes, and considering generalist and domain specific datasets. The results allow to revisit previous studies at the light of encoders trained in a multimodal context and to quantify to which extent all these models share some representations or features. They also suggest that visual features that are specific to VLMs among vision encoders are shared with text encoders, highlighting the impact of text pretraining. The code is available at https://github.com/CEA-LIST/SAEshareConcepts

Explaining How Visual, Textual and Multimodal Encoders Share Concepts

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理