On the Explainability of Vision-Language Models in Art History

作者: Stefanie Schneider

分类: cs.CV

发布日期: 2026-02-24

💡 一句话要点

研究CLIP在艺术史领域的视觉推理可解释性，评估XAI方法有效性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 可解释人工智能 艺术史 CLIP模型 零样本学习

📋 核心要点

现有VLM的可解释性研究不足，尤其是在艺术史等专业领域，难以理解模型的推理过程。
通过结合零样本定位实验和人类可解释性研究，评估七种XAI方法在解释CLIP模型视觉推理方面的有效性。
实验结果表明，XAI方法在一定程度上能捕捉人类的解释，但效果受限于概念稳定性和表征可用性。

📝 摘要（中文）

视觉-语言模型(VLMs)将视觉和文本数据转换到共享的嵌入空间，从而实现广泛的多模态任务，同时也引发了关于机器“理解”本质的关键问题。本文探讨了可解释人工智能(XAI)方法如何在艺术史背景下呈现VLM（即CLIP）的视觉推理过程。为此，我们评估了七种方法，将零样本定位实验与人类可解释性研究相结合。结果表明，虽然这些方法捕捉到了人类解释的某些方面，但其有效性取决于所检查类别的概念稳定性和表征可用性。

🔬 方法详解

问题定义：论文旨在研究视觉-语言模型（VLMs）在艺术史领域的视觉推理过程，并评估现有可解释人工智能（XAI）方法在该领域的有效性。现有的VLM虽然在多模态任务中表现出色，但其内部的推理机制仍然是一个黑盒，尤其是在艺术史这种需要专业知识的领域，难以理解模型是如何做出判断的。因此，如何提高VLM在艺术史领域的可解释性，成为了一个重要的研究问题。

核心思路：论文的核心思路是利用XAI方法来揭示VLM（具体为CLIP模型）在处理艺术史相关任务时的视觉推理过程。通过将XAI方法生成的解释与人类的解释进行对比，评估这些方法是否能够有效地捕捉到人类理解的关键因素。这种方法结合了定量实验（零样本定位）和定性研究（人类可解释性研究），从而更全面地评估XAI方法的有效性。

技术框架：论文的技术框架主要包括以下几个步骤：1) 选择CLIP模型作为研究对象；2) 选择七种不同的XAI方法，包括梯度积分、Grad-CAM等；3) 构建艺术史相关的图像和文本数据集；4) 使用XAI方法生成CLIP模型对图像的解释，即显著性图；5) 进行零样本定位实验，评估显著性图是否能够准确地定位到图像中的关键区域；6) 进行人类可解释性研究，让艺术史专家评估XAI方法生成的解释是否符合人类的直觉和专业知识。

关键创新：论文的关键创新在于将XAI方法应用于艺术史领域，并结合零样本定位实验和人类可解释性研究，从而更全面地评估XAI方法在解释VLM视觉推理方面的有效性。以往的XAI研究主要集中在通用图像分类任务上，而本文则关注艺术史这一特定领域，并考虑了人类专家的知识和直觉。

关键设计：论文的关键设计包括：1) 选择具有代表性的七种XAI方法，涵盖了不同的技术原理；2) 构建包含多种艺术风格和主题的数据集，以保证实验的泛化能力；3) 设计零样本定位实验，通过计算显著性图与人工标注的ground truth之间的IoU来评估解释的准确性；4) 设计人类可解释性研究，通过问卷调查等方式收集艺术史专家的反馈，评估解释的可理解性和合理性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，不同的XAI方法在解释CLIP模型视觉推理方面的表现存在差异。虽然这些方法在一定程度上能够捕捉到人类的解释，但其有效性受到概念稳定性和表征可用性的影响。例如，对于概念清晰、表征丰富的类别，XAI方法的效果较好；而对于概念模糊、表征稀疏的类别，XAI方法的效果则较差。零样本定位实验的结果也表明，XAI方法生成的显著性图并不总是能够准确地定位到图像中的关键区域。

🎯 应用场景

该研究成果可应用于艺术品分析、艺术史研究、博物馆导览等领域。通过提高VLM在艺术领域的透明度和可解释性，可以帮助艺术史学家更好地理解艺术品的内涵，辅助艺术品鉴定，并为公众提供更深入的艺术教育。未来，该研究还可以推广到其他专业领域，例如医学影像分析、遥感图像解译等。

📄 摘要（原文）

Vision-Language Models (VLMs) transfer visual and textual data into a shared embedding space. In so doing, they enable a wide range of multimodal tasks, while also raising critical questions about the nature of machine 'understanding.' In this paper, we examine how Explainable Artificial Intelligence (XAI) methods can render the visual reasoning of a VLM - namely, CLIP - legible in art-historical contexts. To this end, we evaluate seven methods, combining zero-shot localization experiments with human interpretability studies. Our results indicate that, while these methods capture some aspects of human interpretation, their effectiveness hinges on the conceptual stability and representational availability of the examined categories.

On the Explainability of Vision-Language Models in Art History

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理