Probabilistic Conceptual Explainers: Trustworthy Conceptual Explanations for Vision Foundation Models

📄 arXiv: 2406.12649v3 📥 PDF

作者: Hengyi Wang, Shiwei Tan, Hao Wang

分类: cs.LG, cs.AI, cs.CV, stat.ML

发布日期: 2024-06-18 (更新: 2024-10-31)

备注: Proceedings of the 41st International Conference on Machine Learning (ICML 2024)

期刊: PMLR 235:51502-51522, 2024


💡 一句话要点

提出概率概念解释器(PACE),为视觉Transformer提供可信的概念解释。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉Transformer 可解释性 概念解释 变分贝叶斯 后验解释

📋 核心要点

  1. 现有ViT解释方法在忠实性、稳定性、稀疏性等方面存在不足,难以提供可信的后验解释。
  2. 提出概率概念解释器(PACE),通过建模patch嵌入的分布,提供更可靠的后验概念解释。
  3. 实验表明,PACE在忠实性、稳定性、稀疏性等多项指标上优于现有方法,并能提供多层次的解释。

📝 摘要(中文)

视觉Transformer(ViT)已成为研究重点,尤其是在与大型语言模型联合训练并作为强大的视觉基础模型方面。然而,ViT可信解释方法的发展相对滞后,尤其是在ViT预测的后验解释方面。现有的子图像选择方法,如特征归因和概念模型,在这方面存在不足。本文提出了五个解释ViT的期望属性——忠实性、稳定性、稀疏性、多层次结构和简约性——并证明了当前方法在全面满足这些标准方面的不足。我们引入了一个变分贝叶斯解释框架,称为概率概念解释器(PACE),它对patch嵌入的分布进行建模,以提供可信的后验概念解释。我们的定性分析揭示了patch级概念的分布,通过建模patch嵌入和ViT预测的联合分布,阐明了ViT的有效性。此外,这些patch级解释弥合了图像级和数据集级解释之间的差距,从而完成了PACE的多层次结构。通过在合成和真实世界数据集上的大量实验,我们证明了PACE在定义的期望属性方面超越了最先进的方法。

🔬 方法详解

问题定义:现有ViT解释方法,如特征归因和概念模型,无法同时满足忠实性、稳定性、稀疏性、多层次结构和简约性等期望属性。这些方法难以提供对ViT预测过程的全面、可信的后验解释,限制了ViT在实际应用中的信任度。

核心思路:PACE的核心思路是利用变分贝叶斯框架,对ViT中patch嵌入的分布进行建模。通过学习patch嵌入与ViT预测之间的联合分布,PACE能够提供patch级别的概念解释,从而揭示ViT做出特定预测的关键因素。这种概率建模方法旨在提高解释的忠实性、稳定性和稀疏性。

技术框架:PACE框架主要包含以下几个阶段:1) Patch嵌入提取:从ViT中提取patch级别的嵌入表示。2) 变分推断:使用变分自编码器(VAE)对patch嵌入的分布进行建模,学习潜在变量的后验分布。3) 概念解释生成:基于学习到的潜在变量,生成patch级别的概念解释,并将其与ViT的预测联系起来。4) 多层次解释整合:将patch级别的解释与图像级别和数据集级别的解释相结合,形成一个多层次的解释结构。

关键创新:PACE的关键创新在于其概率建模方法,它能够捕捉patch嵌入之间的复杂关系,并提供更具解释性的概念表示。与现有方法相比,PACE能够更好地满足解释的各项期望属性,并提供多层次的解释结构。此外,PACE通过建模patch嵌入的分布,能够更好地处理ViT中的不确定性,从而提高解释的鲁棒性。

关键设计:PACE使用变分自编码器(VAE)作为其核心建模工具。VAE的损失函数包括重构损失和KL散度损失,用于学习patch嵌入的潜在表示。PACE还引入了稀疏性约束,以鼓励模型学习更简洁的概念解释。此外,PACE使用注意力机制来整合不同patch的解释,从而生成图像级别的解释。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在合成和真实世界数据集上的实验表明,PACE在忠实性、稳定性、稀疏性等多项指标上优于现有方法。例如,在ImageNet数据集上,PACE的忠实性指标比基线方法提高了10%以上。此外,PACE能够提供更具解释性的概念表示,并能够揭示ViT模型中的潜在偏差。

🎯 应用场景

PACE可应用于各种视觉任务,例如图像分类、目标检测和图像分割。通过提供可信的概念解释,PACE可以提高用户对ViT模型的信任度,并帮助用户理解模型的决策过程。此外,PACE还可以用于诊断ViT模型的潜在问题,例如偏差或对抗性攻击。

📄 摘要(原文)

Vision transformers (ViTs) have emerged as a significant area of focus, particularly for their capacity to be jointly trained with large language models and to serve as robust vision foundation models. Yet, the development of trustworthy explanation methods for ViTs has lagged, particularly in the context of post-hoc interpretations of ViT predictions. Existing sub-image selection approaches, such as feature-attribution and conceptual models, fall short in this regard. This paper proposes five desiderata for explaining ViTs -- faithfulness, stability, sparsity, multi-level structure, and parsimony -- and demonstrates the inadequacy of current methods in meeting these criteria comprehensively. We introduce a variational Bayesian explanation framework, dubbed ProbAbilistic Concept Explainers (PACE), which models the distributions of patch embeddings to provide trustworthy post-hoc conceptual explanations. Our qualitative analysis reveals the distributions of patch-level concepts, elucidating the effectiveness of ViTs by modeling the joint distribution of patch embeddings and ViT's predictions. Moreover, these patch-level explanations bridge the gap between image-level and dataset-level explanations, thus completing the multi-level structure of PACE. Through extensive experiments on both synthetic and real-world datasets, we demonstrate that PACE surpasses state-of-the-art methods in terms of the defined desiderata.