Keypoint Counting Classifiers: Turning Vision Transformers into Self-Explainable Models Without Training

作者: Kristoffer Wickstrøm, Teresa Dorszewski, Siyan Chen, Michael Kampffmeyer, Elisabeth Wetzer, Robert Jenssen

分类: cs.CV

发布日期: 2025-12-19

💡 一句话要点

提出无需训练的Keypoint Counting Classifiers，将ViT转化为自解释模型

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自解释模型 Vision Transformer 关键点检测 模型可解释性 无需训练

📋 核心要点

现有自解释模型训练复杂、架构特定，难以应用于ViT等通用模型。
提出Keypoint Counting Classifiers (KCCs)，利用ViT自动识别的关键点，构建可解释的决策过程。
实验表明，KCCs无需重新训练即可将ViT转化为自解释模型，并改善人机交互。

📝 摘要（中文）

当前设计自解释模型(SEM)的方法需要复杂的训练过程和特定的架构，这使得它们不切实际。随着基于Vision Transformers (ViT)的通用基础模型的进步，这种不切实际的问题变得更加突出。因此，需要新的方法来为基于ViT的基础模型提供透明度和可靠性。本文提出了一种新的方法，可以将任何经过良好训练的基于ViT的模型转化为SEM，而无需重新训练，我们称之为Keypoint Counting Classifiers (KCCs)。最近的研究表明，ViT可以自动识别图像之间的高精度匹配关键点，我们在此基础上创建一个易于解释的决策过程，该过程在输入中具有内在的可视化能力。我们进行了广泛的评估，结果表明，与最近的基线相比，KCCs改善了人机通信。我们认为，KCCs是使基于ViT的基础模型更加透明和可靠的重要一步。

🔬 方法详解

问题定义：现有自解释模型（SEM）的设计通常需要复杂的训练流程和特定的网络架构，这使得它们难以应用于预训练的Vision Transformer（ViT）等通用视觉模型。如何高效地将预训练的ViT模型转化为自解释模型，而无需进行额外的训练，是一个重要的挑战。现有方法的痛点在于缺乏灵活性和可扩展性，难以适应快速发展的ViT架构。

核心思路：本文的核心思路是利用ViT模型本身所具备的自动识别图像关键点的能力。通过统计图像中特定类别的关键点数量，并基于这些关键点数量进行分类决策，从而构建一个易于解释的决策过程。这种方法无需重新训练ViT模型，而是直接利用其已学习到的特征表示。

技术框架：KCCs方法主要包含以下几个阶段：1) 利用预训练的ViT模型提取图像的关键点特征。2) 对提取的关键点进行聚类，形成代表性的关键点集合。3) 对于每个类别，统计图像中属于该类别的关键点数量。4) 基于关键点数量进行分类决策。整体流程简单清晰，易于实现。

关键创新：该方法最重要的创新点在于无需重新训练即可将ViT转化为自解释模型。它充分利用了ViT模型本身所具备的关键点识别能力，并通过简单的关键点计数来实现分类，从而避免了复杂的训练过程。与现有方法相比，KCCs具有更高的效率和灵活性。

关键设计：关键的设计包括：1) 如何选择合适的ViT模型作为特征提取器。2) 如何对提取的关键点进行有效的聚类，以减少冗余信息。3) 如何确定每个类别的关键点数量阈值，以实现准确的分类。这些参数的选择和调整需要根据具体的应用场景进行优化。

🖼️ 关键图片

📊 实验亮点

实验结果表明，KCCs方法在多个图像分类数据集上取得了良好的性能。与传统的黑盒模型相比，KCCs在保持分类准确率的同时，显著提高了模型的可解释性。此外，实验还表明，KCCs能够有效改善人机通信，提高用户对模型决策的理解和信任。

🎯 应用场景

KCCs方法可广泛应用于需要模型可解释性的计算机视觉任务中，例如医疗图像诊断、自动驾驶和安全监控。通过提供清晰的决策依据，KCCs可以提高用户对模型的信任度，并促进人机协作。未来，该方法有望应用于更复杂的视觉任务，并与其他自解释技术相结合，进一步提升模型的可解释性和可靠性。

📄 摘要（原文）

Current approaches for designing self-explainable models (SEMs) require complicated training procedures and specific architectures which makes them impractical. With the advance of general purpose foundation models based on Vision Transformers (ViTs), this impracticability becomes even more problematic. Therefore, new methods are necessary to provide transparency and reliability to ViT-based foundation models. In this work, we present a new method for turning any well-trained ViT-based model into a SEM without retraining, which we call Keypoint Counting Classifiers (KCCs). Recent works have shown that ViTs can automatically identify matching keypoints between images with high precision, and we build on these results to create an easily interpretable decision process that is inherently visualizable in the input. We perform an extensive evaluation which show that KCCs improve the human-machine communication compared to recent baselines. We believe that KCCs constitute an important step towards making ViT-based foundation models more transparent and reliable.

Keypoint Counting Classifiers: Turning Vision Transformers into Self-Explainable Models Without Training

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理