Cluster Paths: Navigating Interpretability in Neural Networks

作者: Nicholas M. Kroeger, Vincent Bindschaedler

分类: cs.CV, cs.LG

发布日期: 2025-10-08

💡 一句话要点

提出Cluster Paths，提升神经网络决策过程的可解释性，并用于异常检测。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 神经网络可解释性 后验解释 聚类分析 异常检测 视觉概念 决策路径 深度学习

📋 核心要点

深度神经网络决策过程不透明，导致信任风险和潜在偏差，需要可解释性方法。
提出Cluster Paths方法，通过聚类激活值并追踪其序列，揭示网络决策路径。
实验表明Cluster Paths能识别虚假线索、保持预测一致性，并有效检测异常样本。

📝 摘要（中文）

现代深度神经网络在视觉任务中表现出色，但其决策过程不透明，存在信任风险、未被发现的偏差和意外失败。本文提出cluster paths，一种后验可解释性方法，通过聚类选定层的激活值，并将每个输入表示为其cluster ID序列。为了评估cluster paths，引入四个指标：路径复杂度（认知负荷）、加权路径纯度（类别对齐）、决策对齐忠实度（预测保真度）和路径一致性（扰动下的稳定性）。在虚假线索CIFAR-10实验中，cluster paths识别出基于颜色的捷径，并在去除线索时崩溃。在五类CelebA头发颜色任务中，它们实现了90%的忠实度，并在高斯噪声下保持96%的一致性，且不牺牲准确性。扩展到在ImageNet上预训练的Vision Transformer，我们将cluster paths扩展到概念路径，这些概念路径源于对最小路径差异的大型语言模型进行提示。最后，我们表明cluster paths可以作为有效的异常检测器，在模型生成过度自信的预测之前可靠地标记异常样本。Cluster paths在多个网络深度揭示了视觉概念，例如调色板、纹理或对象上下文，表明cluster paths可以扩展到大型视觉模型，同时生成简洁且人类可读的解释。

🔬 方法详解

问题定义：深度神经网络在视觉任务中取得了显著成果，但其内部决策机制复杂且难以理解。现有方法难以有效解释网络的决策过程，导致模型可能存在偏见、依赖虚假线索，以及在面对异常输入时做出错误判断。因此，如何提高神经网络的可解释性，并利用可解释性信息来提升模型的鲁棒性和可靠性是一个重要的问题。

核心思路：Cluster Paths的核心思想是将神经网络内部的激活模式进行聚类，并将每个输入样本在网络中传播的路径表示为一系列聚类ID。通过分析这些路径，可以理解网络如何基于不同的视觉概念做出决策。这种方法旨在将复杂的神经网络决策过程简化为人类可理解的路径序列，从而提高模型的可解释性。

技术框架：Cluster Paths方法主要包含以下几个阶段： 1. 激活值提取：选择网络中的一个或多个层，提取输入样本在该层的激活值。 2. 激活值聚类：使用聚类算法（如K-means）对提取的激活值进行聚类，将相似的激活模式归为一类。 3. 路径构建：对于每个输入样本，将其在选定层中的激活值映射到对应的聚类ID，从而构建该样本的Cluster Path。 4. 路径分析：使用定义的指标（如路径复杂度、路径纯度、决策对齐忠实度、路径一致性）对Cluster Paths进行评估和分析，从而理解网络的决策过程。 5. 概念路径扩展：对于大型Vision Transformer模型，利用大型语言模型对最小路径差异进行提示，从而将Cluster Paths扩展到概念路径。

关键创新：Cluster Paths的关键创新在于将神经网络的决策过程表示为一系列离散的聚类ID，从而将复杂的激活模式简化为人类可理解的路径序列。此外，该方法还提出了一系列评估指标，用于衡量Cluster Paths的质量和有效性。将Cluster Paths扩展到概念路径，并结合大型语言模型，进一步提升了方法的可解释性和应用范围。

关键设计： * 聚类算法选择：可以使用不同的聚类算法，如K-means、层次聚类等，具体选择取决于数据集和任务的特点。 * 聚类数量：聚类数量的选择会影响Cluster Paths的粒度和复杂度，需要根据具体情况进行调整。 * 评估指标：论文提出了四个评估指标：路径复杂度、加权路径纯度、决策对齐忠实度、路径一致性，用于衡量Cluster Paths的质量和有效性。 * 概念路径扩展：利用大型语言模型对最小路径差异进行提示，从而将Cluster Paths扩展到概念路径，需要选择合适的提示词和语言模型。

🖼️ 关键图片

📊 实验亮点

在CIFAR-10实验中，Cluster Paths成功识别出基于颜色的虚假线索。在CelebA头发颜色分类任务中，Cluster Paths实现了90%的决策对齐忠实度，并在添加高斯噪声的情况下保持了96%的路径一致性，同时没有牺牲分类准确率。此外，Cluster Paths还被证明可以作为有效的异常检测器，能够可靠地标记异常样本。

🎯 应用场景

Cluster Paths可应用于多个领域，例如：诊断神经网络中的偏差和漏洞，提高模型的可信度；辅助模型调试和优化，提升性能；用于异常检测，识别恶意攻击或异常输入；在医疗影像分析等高风险领域，提供决策依据，增强可解释性和安全性。该研究有助于推动可信赖人工智能的发展。

📄 摘要（原文）

While modern deep neural networks achieve impressive performance in vision tasks, they remain opaque in their decision processes, risking unwarranted trust, undetected biases and unexpected failures. We propose cluster paths, a post-hoc interpretability method that clusters activations at selected layers and represents each input as its sequence of cluster IDs. To assess these cluster paths, we introduce four metrics: path complexity (cognitive load), weighted-path purity (class alignment), decision-alignment faithfulness (predictive fidelity), and path agreement (stability under perturbations). In a spurious-cue CIFAR-10 experiment, cluster paths identify color-based shortcuts and collapse when the cue is removed. On a five-class CelebA hair-color task, they achieve 90% faithfulness and maintain 96% agreement under Gaussian noise without sacrificing accuracy. Scaling to a Vision Transformer pretrained on ImageNet, we extend cluster paths to concept paths derived from prompting a large language model on minimal path divergences. Finally, we show that cluster paths can serve as an effective out-of-distribution (OOD) detector, reliably flagging anomalous samples before the model generates over-confident predictions. Cluster paths uncover visual concepts, such as color palettes, textures, or object contexts, at multiple network depths, demonstrating that cluster paths scale to large vision models while generating concise and human-readable explanations.

Cluster Paths: Navigating Interpretability in Neural Networks

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理