Explaining CLIP Zero-shot Predictions Through Concepts

作者: Onat Ozdemir, Anders Christensen, Stephan Alaniz, Zeynep Akata, Emre Akbas

分类: cs.CV

发布日期: 2026-03-30

备注: Accepted to CVPR 2026

🔗 代码/项目: GITHUB

💡 一句话要点

EZPC：通过概念解释CLIP的零样本预测，提升模型可解释性

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 零样本学习 可解释性AI 视觉-语言模型 概念瓶颈模型 CLIP 图像识别 语义理解

📋 核心要点

现有CLIP模型零样本预测能力强，但缺乏可解释性，难以理解其决策过程。
EZPC将CLIP的图像-文本嵌入投影到概念空间，用人类可理解的概念解释预测。
实验表明，EZPC在保持CLIP精度的同时，提供了有意义的概念级解释，提升了模型透明度。

📝 摘要（中文）

CLIP等大规模视觉-语言模型在零样本图像识别方面取得了显著成功，但其预测对人类而言仍然不够透明。相比之下，概念瓶颈模型通过人类定义的中间概念进行推理，提供了可解释的表示，但它们依赖于概念监督，并且缺乏泛化到未见类的能力。我们提出了EZPC，通过人类可理解的概念来解释CLIP的零样本预测，从而弥合了这两种范式之间的差距。我们的方法将CLIP的联合图像-文本嵌入投影到从语言描述中学习到的概念空间中，从而在无需额外监督的情况下实现忠实且透明的解释。该模型通过对齐和重构目标的组合来学习这种投影，确保概念激活保留CLIP的语义结构，同时保持可解释性。在CIFAR-100、CUB-200-2011、Places365、ImageNet-100和ImageNet-1k五个基准数据集上的大量实验表明，我们的方法在提供有意义的概念级解释的同时，保持了CLIP强大的零样本分类精度。通过将开放词汇预测建立在明确的语义概念之上，我们的方法为可解释和值得信赖的视觉-语言模型提供了一个原则性的步骤。

🔬 方法详解

问题定义：CLIP等视觉-语言模型在零样本图像识别中表现出色，但其预测过程如同黑盒，缺乏可解释性。现有方法要么依赖于概念监督，限制了泛化能力，要么难以提供清晰的概念级解释，无法让人理解模型做出特定预测的原因。因此，如何提升CLIP等模型的透明度，使其预测结果更易于理解，是一个重要的研究问题。

核心思路：EZPC的核心思路是将CLIP的联合图像-文本嵌入投影到一个由人类可理解的概念构成的概念空间中。通过这种投影，可以将CLIP的预测与具体的概念联系起来，从而解释模型为什么会做出这样的预测。这种方法无需额外的概念监督，并且能够保持CLIP的零样本泛化能力。

技术框架：EZPC的整体框架包括以下几个主要步骤：1) 使用CLIP提取图像和文本的联合嵌入；2) 将联合嵌入投影到概念空间；3) 使用概念激活来解释CLIP的预测。模型通过一个投影矩阵将CLIP的联合嵌入映射到概念空间。这个投影矩阵是通过一个结合了对齐和重构目标的损失函数来学习的。对齐目标旨在使投影后的概念激活与概念的语言描述对齐，而重构目标旨在保持CLIP的语义结构。

关键创新：EZPC的关键创新在于它提供了一种无需额外监督即可将CLIP的预测与人类可理解的概念联系起来的方法。与需要概念监督的概念瓶颈模型不同，EZPC利用CLIP的联合嵌入和语言描述来学习概念空间，从而实现了零样本的可解释性。此外，EZPC通过结合对齐和重构目标，确保了概念激活既具有可解释性，又能够保留CLIP的语义信息。

关键设计：EZPC的关键设计包括：1) 使用线性投影将CLIP的联合嵌入映射到概念空间；2) 使用余弦相似度来衡量概念激活与概念的语言描述之间的对齐程度；3) 使用均方误差来衡量重构误差，确保投影后的嵌入能够尽可能地重构原始的CLIP嵌入；4) 通过调整对齐损失和重构损失的权重来平衡可解释性和预测精度。

🖼️ 关键图片

📊 实验亮点

在五个基准数据集（CIFAR-100、CUB-200-2011、Places365、ImageNet-100和ImageNet-1k）上的实验表明，EZPC在提供有意义的概念级解释的同时，保持了CLIP强大的零样本分类精度。这表明EZPC能够在不牺牲性能的情况下，显著提高视觉-语言模型的可解释性。

🎯 应用场景

EZPC可应用于需要高透明度和可信度的视觉-语言模型应用场景，例如医疗诊断、自动驾驶和安全监控。通过提供概念级的解释，EZPC可以帮助用户理解模型的决策过程，从而提高用户对模型的信任度。此外，EZPC还可以用于调试和改进视觉-语言模型，例如，通过分析概念激活来识别模型可能存在的偏差或错误。

📄 摘要（原文）

Large-scale vision-language models such as CLIP have achieved remarkable success in zero-shot image recognition, yet their predictions remain largely opaque to human understanding. In contrast, Concept Bottleneck Models provide interpretable intermediate representations by reasoning through human-defined concepts, but they rely on concept supervision and lack the ability to generalize to unseen classes. We introduce EZPC that bridges these two paradigms by explaining CLIP's zero-shot predictions through human-understandable concepts. Our method projects CLIP's joint image-text embeddings into a concept space learned from language descriptions, enabling faithful and transparent explanations without additional supervision. The model learns this projection via a combination of alignment and reconstruction objectives, ensuring that concept activations preserve CLIP's semantic structure while remaining interpretable. Extensive experiments on five benchmark datasets, CIFAR-100, CUB-200-2011, Places365, ImageNet-100, and ImageNet-1k, demonstrate that our approach maintains CLIP's strong zero-shot classification accuracy while providing meaningful concept-level explanations. By grounding open-vocabulary predictions in explicit semantic concepts, our method offers a principled step toward interpretable and trustworthy vision-language models. Code is available at https://github.com/oonat/ezpc.

Explaining CLIP Zero-shot Predictions Through Concepts

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理