Learning Interpretable Queries for Explainable Image Classification with Information Pursuit

作者: Stefan Kolek, Aditya Chattopadhyay, Kwan Ho Ryan Chan, Hector Andrade-Loarca, Gitta Kutyniok, Réne Vidal

分类: cs.CV

发布日期: 2023-12-16 (更新: 2025-08-05)

备注: Published at ICCV 2025

💡 一句话要点

提出基于信息寻踪的可解释查询学习方法，提升图像分类可解释性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 可解释图像分类 信息寻踪 查询学习 字典学习 视觉语言模型

📋 核心要点

现有信息寻踪方法依赖人工设计的查询字典，受限于专家知识和启发式方法。
论文提出一种直接从数据集中学习可解释查询字典的方法，提升查询的有效性。
实验结果表明，学习到的字典显著优于大型语言模型生成的手工字典，提升了性能。

📝 摘要（中文）

信息寻踪(IP)是一种可解释的预测算法，它贪婪地选择一系列关于数据的可解释查询，并按照信息增益排序，在每个步骤基于观察到的查询-答案对更新其后验概率。标准的范式使用由领域专家或大型语言模型在人工提示后精心制作的潜在数据查询字典。然而，在实践中，手工制作的字典受到专家知识和提示工程启发式的限制。本文介绍了一种新颖的方法：直接从数据集中学习可解释查询的字典。我们的查询字典学习问题被表述为一个优化问题，通过用可学习的字典参数增强IP的变分公式。为了制定可学习且可解释的查询，我们利用了大型视觉和语言模型（如CLIP）的潜在空间。为了解决优化问题，我们提出了一种受经典稀疏字典学习启发的新的查询字典学习算法。我们的实验表明，学习到的字典明显优于使用大型语言模型生成的手工制作的字典。

🔬 方法详解

问题定义：现有可解释图像分类方法，特别是基于信息寻踪的方法，依赖于人工设计的查询字典。这些字典的质量严重依赖于领域专家的知识和大型语言模型的提示工程技巧，存在局限性，难以充分挖掘数据中的信息，影响分类的可解释性和准确性。

核心思路：论文的核心思路是直接从数据中学习可解释的查询字典，避免人工设计的局限性。通过优化信息寻踪框架中的字典参数，使得学习到的查询能够更好地捕捉数据中的关键信息，从而提升分类性能和可解释性。利用大型视觉语言模型（如CLIP）的潜在空间，保证学习到的查询具有可解释性。

技术框架：该方法的核心是扩展了信息寻踪（IP）的变分公式，将查询字典的参数作为可学习的变量。整体流程如下：1. 使用大型视觉语言模型（如CLIP）提取图像的特征表示。2. 构建一个可学习的查询字典，该字典中的每个查询对应于CLIP潜在空间中的一个向量。3. 将查询字典的学习问题形式化为一个优化问题，目标是最大化信息增益，同时保证查询的可解释性。4. 使用一种受经典稀疏字典学习启发的算法来求解该优化问题，得到学习到的查询字典。5. 使用学习到的查询字典进行信息寻踪，对图像进行分类。

关键创新：最重要的技术创新点在于提出了一个可学习的查询字典，并将其集成到信息寻踪框架中。与现有方法相比，该方法无需人工设计查询，能够自动地从数据中学习到更有效的查询，从而提升分类性能和可解释性。利用CLIP的潜在空间保证了查询的可解释性，同时避免了手工设计的局限性。

关键设计：论文的关键设计包括：1. 使用CLIP的潜在空间作为查询的基础，保证查询的可解释性。2. 将查询字典的学习问题形式化为一个优化问题，目标是最大化信息增益，同时加入正则化项，保证查询的稀疏性。3. 提出了一种受经典稀疏字典学习启发的算法来求解该优化问题，该算法能够有效地学习到高质量的查询字典。具体的损失函数包括信息增益项和正则化项，正则化项用于约束查询的稀疏性，防止过拟合。优化算法采用迭代的方式，交替更新查询字典和后验概率。

📊 实验亮点

实验结果表明，学习到的查询字典在图像分类任务中显著优于手工制作的字典。具体而言，与使用大型语言模型生成的手工字典相比，学习到的字典在分类准确率上有显著提升，并且能够提供更清晰、更可解释的分类依据。量化结果表明，学习到的字典能够更好地捕捉图像中的关键特征，从而提升分类性能。

🎯 应用场景

该研究成果可应用于多种图像分类场景，尤其适用于需要高可解释性的领域，如医疗图像诊断、安全监控、自动驾驶等。通过学习可解释的查询，可以帮助用户理解分类结果的原因，提高模型的信任度和可靠性，并为后续的决策提供依据。未来可以进一步探索如何学习更复杂的查询，以及如何将该方法应用于其他类型的数据。

📄 摘要（原文）

Information Pursuit (IP) is an explainable prediction algorithm that greedily selects a sequence of interpretable queries about the data in order of information gain, updating its posterior at each step based on observed query-answer pairs. The standard paradigm uses hand-crafted dictionaries of potential data queries curated by a domain expert or a large language model after a human prompt. However, in practice, hand-crafted dictionaries are limited by the expertise of the curator and the heuristics of prompt engineering. This paper introduces a novel approach: learning a dictionary of interpretable queries directly from the dataset. Our query dictionary learning problem is formulated as an optimization problem by augmenting IP's variational formulation with learnable dictionary parameters. To formulate learnable and interpretable queries, we leverage the latent space of large vision and language models like CLIP. To solve the optimization problem, we propose a new query dictionary learning algorithm inspired by classical sparse dictionary learning. Our experiments demonstrate that learned dictionaries significantly outperform hand-crafted dictionaries generated with large language models.

Learning Interpretable Queries for Explainable Image Classification with Information Pursuit

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册