DINO-QPM: Adapting Visual Foundation Models for Globally Interpretable Image Classification

作者: Robert Zimmermann, Thomas Norrenbrock, Bodo Rosenhahn

分类: cs.CV, cs.HC, cs.LG

发布日期: 2026-04-08

备注: Accepted to the 5th Explainable AI for Computer Vision (XAI4CV) Workshop at CVPR 2026

💡 一句话要点

提出DINO-QPM，提升视觉基础模型分类精度与全局可解释性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉基础模型 可解释性 图像分类 DINOv2 二次规划增强模型 全局可解释性 特征提取 稀疏性损失

📋 核心要点

现有视觉基础模型特征复杂，可解释性差，难以理解模型决策依据。
DINO-QPM通过适配器将DINOv2特征转换为对比、类独立的表示，提升可解释性。
实验表明，DINO-QPM在分类精度和可解释性上均优于现有方法，并引入了可信度指标。

📝 摘要（中文）

尽管DINOv2等视觉基础模型作为特征提取器表现出色，但其复杂的高维表示给可解释性带来了巨大挑战。本文提出了DINO-QPM，将这些强大的但纠缠的特征转换为对比的、类独立的表示，从而实现人类可解释性。DINO-QPM是一个轻量级的可解释性适配器，旨在实现全局可解释的图像分类，它改进了二次规划增强模型(QPM)，使其能够在严格冻结的DINO骨干网络上运行。与通常依赖于\texttt{CLS} token的视觉基础模型分类不同，我们有意偏离这一标准。通过利用平均池化，我们将patch嵌入直接连接到模型的特征，从而能够在输入空间内对DINO-QPM的全局可解释特征进行空间定位。此外，我们应用稀疏性损失来最小化空间散射和背景噪声，确保解释基于相关的对象部分。通过DINO-QPM，我们使QPM的可解释性水平可用作适配器，同时超过DINOv2线性探针的准确性。通过引入的可信度指标和其他可解释性指标进行评估，大量的实验表明，在分类准确性和解释质量方面，DINO-QPM优于其他适用于冻结视觉基础模型的方法。

🔬 方法详解

问题定义：视觉基础模型（如DINOv2）虽然在图像分类等任务上表现出色，但其提取的特征表示通常是高维且复杂的，缺乏可解释性。这意味着我们很难理解模型做出特定预测的原因，也难以信任模型的决策。现有方法通常依赖\texttt{CLS} token进行分类，忽略了patch embedding中蕴含的空间信息，限制了可解释性。

核心思路：DINO-QPM的核心思路是将视觉基础模型提取的复杂特征转换为更具可解释性的表示。具体来说，它通过一个轻量级的适配器，将DINOv2的特征转换为对比的、类独立的表示，使得人类能够更容易理解模型关注的图像区域。此外，DINO-QPM通过平均池化将patch embedding与模型特征连接，从而实现空间定位。

技术框架：DINO-QPM的整体框架包括以下几个主要步骤：1) 使用冻结的DINOv2骨干网络提取图像特征；2) 通过平均池化将patch embedding与模型特征连接；3) 使用一个轻量级的适配器（QPM）将DINOv2的特征转换为对比的、类独立的表示；4) 应用稀疏性损失来最小化空间散射和背景噪声；5) 使用转换后的特征进行图像分类。

关键创新：DINO-QPM的关键创新在于其可解释性适配器的设计，该适配器能够将复杂的视觉特征转换为更易于理解的表示。与现有方法不同，DINO-QPM不依赖于\texttt{CLS} token，而是直接利用patch embedding的空间信息，从而实现全局可解释性。此外，DINO-QPM还引入了稀疏性损失，以提高解释的清晰度。

关键设计：DINO-QPM的关键设计包括：1) 使用平均池化将patch embedding与模型特征连接，从而实现空间定位；2) 应用二次规划增强模型(QPM)作为适配器，将DINOv2的特征转换为对比的、类独立的表示；3) 使用稀疏性损失来最小化空间散射和背景噪声。具体参数设置和网络结构细节未在摘要中详细说明，需要参考论文全文。

🖼️ 关键图片

📊 实验亮点

DINO-QPM在分类准确性方面超过了DINOv2线性探针，同时显著提高了可解释性。论文引入了可信度指标来评估可解释性，实验结果表明DINO-QPM在可信度和其他可解释性指标上优于其他适用于冻结视觉基础模型的方法。具体性能提升数据未知，需要参考论文全文。

🎯 应用场景

DINO-QPM可应用于需要高可解释性的图像分类场景，例如医疗影像诊断、自动驾驶决策、安全监控等。通过提供可解释的分类结果，DINO-QPM可以帮助医生、工程师等专业人士更好地理解模型的决策过程，从而提高决策的可靠性和安全性。该研究还有助于提升公众对人工智能系统的信任度，促进人工智能技术的广泛应用。

📄 摘要（原文）

Although visual foundation models like DINOv2 provide state-of-the-art performance as feature extractors, their complex, high-dimensional representations create substantial hurdles for interpretability. This work proposes DINO-QPM, which converts these powerful but entangled features into contrastive, class-independent representations that are interpretable by humans. DINO-QPM is a lightweight interpretability adapter that pursues globally interpretable image classification, adapting the Quadratic Programming Enhanced Model (QPM) to operate on strictly frozen DINO backbones. While classification with visual foundation models typically relies on the \texttt{CLS} token, we deliberately diverge from this standard. By leveraging average-pooling, we directly connect the patch embeddings to the model's features and therefore enable spatial localisation of DINO-QPM's globally interpretable features within the input space. Furthermore, we apply a sparsity loss to minimise spatial scatter and background noise, ensuring that explanations are grounded in relevant object parts. With DINO-QPM we make the level of interpretability of QPM available as an adapter while exceeding the accuracy of DINOv2 linear probe. Evaluated through an introduced Plausibility metric and other interpretability metrics, extensive experiments demonstrate that DINO-QPM is superior to other applicable methods for frozen visual foundation models in both classification accuracy and explanation quality.

DINO-QPM: Adapting Visual Foundation Models for Globally Interpretable Image Classification

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理