Bi-ICE: An Inner Interpretable Framework for Image Classification via Bi-directional Interactions between Concept and Input Embeddings

作者: Jinyung Hong, Yearim Kim, Keun Hee Park, Sangyu Han, Nojun Kwak, Theodore P. Pavlic

分类: cs.CV, cs.LG

发布日期: 2024-11-26 (更新: 2025-12-08)

备注: Accepted at IEEE WACV2026. The first two authors equally contributed to this work

💡 一句话要点

提出Bi-ICE，通过概念与输入嵌入的双向交互，提升图像分类的内部可解释性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 内部可解释性 图像分类 概念嵌入 双向交互 可解释人工智能

📋 核心要点

现有图像分类可解释性研究主要集中在架构和功能层面，缺乏对内部机制的深入理解。
Bi-ICE模块通过概念和输入嵌入的双向交互，生成基于人类可理解概念的预测，并量化其贡献。
实验结果展示了Bi-ICE在图像分类中增强的透明度，并能精确定位概念在输入中的位置。

📝 摘要（中文）

内部可解释性旨在通过可扩展的自动化方法揭示AI系统的内部机制，是一个很有前景的领域。虽然在大型语言模型方面已经进行了大量的研究，但将内部可解释性应用于大规模图像任务的研究却很少，主要集中在架构和功能层面，以可视化学习到的概念。本文首先提出了一个概念框架，支持大规模图像分类任务的内部可解释性和多层次分析。具体来说，我们引入了概念和输入嵌入之间的双向交互（Bi-ICE）模块，该模块有助于计算、算法和实现层面的可解释性。该模块通过生成基于人类可理解概念的预测、量化其贡献以及在输入中定位它们来增强透明度。最后，我们展示了图像分类中增强的透明度，测量概念贡献，并在输入中精确定位它们。我们的方法通过展示概念学习及其收敛的过程来突出算法的可解释性。

🔬 方法详解

问题定义：现有图像分类模型的可解释性不足，难以理解模型内部的决策过程。现有方法主要集中在可视化学习到的概念，缺乏对概念贡献的量化和定位，以及对概念学习过程的理解。

核心思路：论文的核心思路是通过引入概念和输入嵌入之间的双向交互，建立一个内部可解释的框架。该框架旨在通过人类可理解的概念来解释模型的预测，并量化这些概念的贡献，从而提高模型的可解释性和透明度。

技术框架：Bi-ICE框架包含以下主要模块：1) 概念嵌入模块，用于学习和表示人类可理解的概念；2) 输入嵌入模块，用于提取输入图像的特征；3) 双向交互模块，用于在概念嵌入和输入嵌入之间建立双向交互，从而生成基于概念的预测；4) 可解释性分析模块，用于量化概念的贡献，并在输入中定位它们。

关键创新：Bi-ICE的关键创新在于引入了概念和输入嵌入之间的双向交互。这种双向交互使得模型能够利用人类可理解的概念来指导预测，并能够量化这些概念的贡献。此外，Bi-ICE还能够定位概念在输入中的位置，从而进一步提高模型的可解释性。与现有方法相比，Bi-ICE能够提供更深入的内部可解释性，并能够更好地理解模型的决策过程。

关键设计：Bi-ICE模块的关键设计包括：1) 使用预训练的语言模型（如WordNet）来初始化概念嵌入；2) 使用注意力机制来实现概念嵌入和输入嵌入之间的双向交互；3) 使用损失函数来鼓励模型学习有意义的概念表示，并量化概念的贡献；4) 使用可视化技术来展示概念在输入中的位置。

🖼️ 关键图片

📊 实验亮点

论文通过实验证明了Bi-ICE框架在图像分类任务中能够显著提高模型的可解释性。实验结果表明，Bi-ICE能够生成基于人类可理解概念的预测，并能够量化这些概念的贡献。此外，Bi-ICE还能够定位概念在输入中的位置，从而进一步提高模型的可解释性。与现有方法相比，Bi-ICE能够提供更深入的内部可解释性，并能够更好地理解模型的决策过程。

🎯 应用场景

Bi-ICE框架可应用于各种图像分类任务，例如医学图像诊断、自动驾驶和安全监控。通过提高模型的可解释性，Bi-ICE可以帮助用户更好地理解模型的决策过程，从而提高模型的可靠性和可信度。此外，Bi-ICE还可以用于发现新的概念和知识，从而促进相关领域的研究和发展。

📄 摘要（原文）

Inner interpretability is a promising field aiming to uncover the internal mechanisms of AI systems through scalable, automated methods. While significant research has been conducted on large language models, limited attention has been paid to applying inner interpretability to large-scale image tasks, focusing primarily on architectural and functional levels to visualize learned concepts. In this paper, we first present a conceptual framework that supports inner interpretability and multilevel analysis for large-scale image classification tasks. Specifically, we introduce the Bi-directional Interaction between Concept and Input Embeddings (Bi-ICE) module, which facilitates interpretability across the computational, algorithmic, and implementation levels. This module enhances transparency by generating predictions based on human-understandable concepts, quantifying their contributions, and localizing them within the inputs. Finally, we showcase enhanced transparency in image classification, measuring concept contributions, and pinpointing their locations within the inputs. Our approach highlights algorithmic interpretability by demonstrating the process of concept learning and its convergence.

Bi-ICE: An Inner Interpretable Framework for Image Classification via Bi-directional Interactions between Concept and Input Embeddings

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理