A Comprehensive Survey on Self-Interpretable Neural Networks

作者: Yang Ji, Ying Sun, Yuting Zhang, Zhigaoyuan Wang, Yuanxin Zhuang, Zheng Gong, Dazhong Shen, Chuan Qin, Hengshu Zhu, Hui Xiong

分类: cs.LG, cs.AI

发布日期: 2025-01-26 (更新: 2025-03-22)

期刊: Proceedings of the IEEE, 2025

DOI: 10.1109/JPROC.2025.3635153

🔗 代码/项目: GITHUB

💡 一句话要点

全面综述自解释性神经网络，涵盖方法、应用与挑战

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 自解释性神经网络 可解释性AI 模型解释 深度学习 综述 归因方法 概念解释 原型学习

📋 核心要点

现有神经网络缺乏可解释性，限制了其在关键决策场景中的应用，事后解释方法存在鲁棒性和保真度问题。
本文对自解释性神经网络进行了全面综述，从归因、函数、概念、原型和规则五个角度总结了现有方法。
论文总结了自解释性的评估指标，识别了开放性挑战，并提供了一个公开资源库以跟踪该领域进展。

📝 摘要（中文）

神经网络在各个领域取得了显著成功。然而，缺乏可解释性限制了它们的实际应用，尤其是在关键决策场景中。事后可解释性为预训练模型提供解释，但常常面临鲁棒性和保真度的风险。这激发了人们对自解释性神经网络的日益关注，它通过模型结构固有地揭示预测的基本原理。虽然已经存在关于事后可解释性的综述，但仍然缺乏对自解释性神经网络的全面和系统的综述。为了弥补这一差距，我们首先收集和回顾了现有的自解释性神经网络工作，并从五个关键角度对其方法进行了结构化总结：基于归因、基于函数、基于概念、基于原型和基于规则的自解释。我们还展示了模型解释的具体可视化示例，并讨论了它们在各种场景中的适用性，包括图像、文本、图数据和深度强化学习。此外，我们总结了现有的自解释性评估指标，并确定了该领域的开放挑战，为未来的研究提供了见解。为了支持正在进行的发展，我们提供了一个公开可访问的资源来跟踪该领域的进展：https://github.com/yangji721/Awesome-Self-Interpretable-Neural-Network。

🔬 方法详解

问题定义：神经网络在很多领域表现出色，但其内在的“黑盒”特性限制了其在需要高透明度的场景中的应用，例如医疗诊断、金融风控等。事后可解释性方法试图解释已训练好的模型，但这些解释的可靠性和准确性难以保证。因此，研究重点转向设计本身就具有可解释性的神经网络。

核心思路：论文的核心思路是对现有的自解释性神经网络进行系统性的分类和总结，从而为研究人员提供一个全面的参考框架。通过对不同类型的自解释性方法进行分析，揭示其内在原理和适用场景，并指出未来研究方向。

技术框架：论文将自解释性神经网络分为五大类：基于归因的方法、基于函数的方法、基于概念的方法、基于原型的方法和基于规则的方法。每种方法都通过特定的模型结构或训练方式，使得模型的预测过程能够被清晰地理解和解释。论文还讨论了这些方法在图像、文本、图数据和深度强化学习等不同领域的应用。

关键创新：该论文的主要创新在于对自解释性神经网络进行了全面的、结构化的分类和总结，填补了该领域综述性研究的空白。通过对不同方法的分析和比较，为研究人员提供了一个清晰的路线图，有助于他们更好地理解和应用自解释性神经网络。

关键设计：论文的关键设计在于其分类框架，它将现有的自解释性神经网络按照其解释的原理和方式进行了划分。例如，基于归因的方法通过计算输入特征对预测结果的贡献度来进行解释；基于函数的方法则通过设计具有特定功能的网络层来实现可解释性。此外，论文还总结了现有的自解释性评估指标，为评估不同方法的性能提供了参考。

🖼️ 关键图片

📊 实验亮点

该综述论文系统地整理了自解释性神经网络领域的研究成果，并提供了一个公开可访问的资源库（https://github.com/yangji721/Awesome-Self-Interpretable-Neural-Network），方便研究人员跟踪该领域的最新进展。论文还总结了现有的自解释性评估指标，并指出了该领域面临的开放性挑战，为未来的研究方向提供了有价值的参考。

🎯 应用场景

该研究成果可应用于需要高透明度和可信度的领域，例如医疗诊断、金融风控、法律判决等。自解释性神经网络能够帮助人们理解模型的决策过程，从而提高对模型的信任度，并促进人与AI的协作。未来的研究可以进一步探索如何设计更加高效、鲁棒和通用的自解释性神经网络。

📄 摘要（原文）

Neural networks have achieved remarkable success across various fields. However, the lack of interpretability limits their practical use, particularly in critical decision-making scenarios. Post-hoc interpretability, which provides explanations for pre-trained models, is often at risk of robustness and fidelity. This has inspired a rising interest in self-interpretable neural networks, which inherently reveal the prediction rationale through the model structures. Although there exist surveys on post-hoc interpretability, a comprehensive and systematic survey of self-interpretable neural networks is still missing. To address this gap, we first collect and review existing works on self-interpretable neural networks and provide a structured summary of their methodologies from five key perspectives: attribution-based, function-based, concept-based, prototype-based, and rule-based self-interpretation. We also present concrete, visualized examples of model explanations and discuss their applicability across diverse scenarios, including image, text, graph data, and deep reinforcement learning. Additionally, we summarize existing evaluation metrics for self-interpretability and identify open challenges in this field, offering insights for future research. To support ongoing developments, we present a publicly accessible resource to track advancements in this domain: https://github.com/yangji721/Awesome-Self-Interpretable-Neural-Network.

A Comprehensive Survey on Self-Interpretable Neural Networks

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理