From Local to Global to Mechanistic: An iERF-Centered Unified Framework for Interpreting Vision Models
作者: Yearim Kim, Sangyu Han, Nojun Kwak
分类: cs.CV
发布日期: 2026-05-01
备注: Accepted to IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2026
期刊: IEEE Transactions on Pattern Analysis and Machine Intelligence, 2026
DOI: 10.1109/TPAMI.2026.3688582
💡 一句话要点
提出iERF中心统一框架,实现视觉模型局部、全局和机制可解释性
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 可解释性 视觉模型 有效感受野 Transformer 概念锚定 层间分析 共享率分解
📋 核心要点
- 现有视觉模型可解释性方法分散,难以统一解释证据来源、模型编码和计算组装。
- 提出iERF中心框架,通过共享率分解、概念锚定特征解释和层间概念图,统一局部、全局和机制可解释性。
- 实验表明,该框架在保真度和鲁棒性方面优于基线,并成功解释了分散的SAE特征。
📝 摘要(中文)
现代视觉模型虽然精度高,但证据来源、模型编码内容以及内部计算如何组装这些证据的解释仍然是零散的。本文提出了一个以实例有效感受野(iERF)为中心的框架,围绕一个分析单元统一了局部、全局和机制可解释性:点特征向量(PFV)及其对应的实例特定有效感受野(iERF)。在局部层面,共享率分解(SRD)通过共享率将每个PFV表示为上游PFV的混合,并传播iERF以构建类判别显著性图。SRD产生高分辨率、激活忠实的解释,对目标操纵和噪声具有鲁棒性,并且在常见的非线性激活中保持激活无关性。对于全局视角,引入概念锚定特征解释(CAFE),它利用iERF作为语义标签,将抽象的潜在向量锚定在可验证的像素级证据中。利用CAFE,解决了非局部化稀疏自编码器潜在向量的挑战,尤其是在Transformer中,早期自注意力混合了远距离上下文。为了回答表示如何通过深度组合,提出了层间概念图与层间概念归因(ICAT),它量化了概念到概念的影响,同时隔离了层对;层间插入、删除协议将积分梯度识别为最忠实的实例化。在ResNet50、VGG16和ViT上的实验表明,该框架在保真度和鲁棒性方面优于基线,成功地解释了分散的SAE特征,并揭示了在正确分类、错误分类和对抗性情况下的主要概念路径。基于iERF,该方法提供了一个连贯的、有证据支持的从像素到概念到决策的映射。
🔬 方法详解
问题定义:现有视觉模型的可解释性方法通常是孤立的,缺乏一个统一的框架来解释模型如何从像素到最终决策进行推理。具体来说,现有方法难以同时提供局部(像素级别)、全局(概念级别)和机制(层间关系)的可解释性。此外,对于Transformer等模型中分散的特征表示,现有方法难以有效地解释。
核心思路:本文的核心思路是以实例有效感受野(iERF)为中心,构建一个统一的框架。iERF作为连接像素和概念的桥梁,可以用于局部显著性分析、全局概念解释和层间关系建模。通过iERF,可以将模型的内部表示与可验证的像素级证据联系起来,从而提供更可靠和全面的解释。
技术框架:该框架包含三个主要模块: 1. 共享率分解(SRD):用于局部可解释性,将每个点特征向量(PFV)分解为上游PFV的混合,并通过共享率传播iERF,生成类判别显著性图。 2. 概念锚定特征解释(CAFE):用于全局可解释性,利用iERF作为语义标签,将抽象的潜在向量锚定到像素级证据,解决非局部化稀疏自编码器潜在向量的解释问题。 3. 层间概念图与层间概念归因(ICAT):用于机制可解释性,量化层间概念的影响,并使用层间插入/删除协议评估不同归因方法的忠实度。
关键创新:该论文的关键创新在于提出了一个以iERF为中心的统一框架,将局部、全局和机制可解释性整合在一起。通过iERF,可以将模型的内部表示与可验证的像素级证据联系起来,从而提供更可靠和全面的解释。此外,CAFE方法有效地解决了Transformer等模型中分散特征表示的解释问题。
关键设计: * iERF计算:使用反向传播或其他方法计算每个PFV的iERF,确保iERF能够准确反映该PFV对最终决策的影响区域。 * SRD中的共享率:通过优化算法学习共享率,使得分解后的PFV能够尽可能地重构原始PFV,并保持激活忠实性。 * CAFE中的概念锚定:使用iERF作为语义标签训练一个分类器,将潜在向量映射到像素级概念,从而实现概念锚定。 * ICAT中的概念图构建:使用互信息或其他方法量化层间概念的关联性,构建概念图,并使用归因方法评估概念之间的影响。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该框架在ResNet50、VGG16和ViT等模型上,在保真度和鲁棒性方面优于现有基线方法。CAFE方法成功解释了分散的SAE特征,并揭示了在正确分类、错误分类和对抗性情况下的主要概念路径。层间概念图分析揭示了模型中重要的概念传递路径。
🎯 应用场景
该研究成果可应用于提升计算机视觉模型的可信度和透明度,例如在自动驾驶、医疗诊断等安全攸关领域,帮助用户理解模型的决策依据,从而提高模型的可靠性和安全性。此外,该框架还可以用于模型调试和优化,帮助研究人员发现模型中的潜在问题并改进模型设计。
📄 摘要(原文)
Modern vision models achieve remarkable accuracy, but explaining where evidence arises, what the model encodes, and how internal computations assemble that evidence remains fragmented. We introduce an iERF-centric framework that unifies local, global, and mechanistic interpretability around a single analysis unit: the pointwise feature vector (PFV) paired with its instance-specific Effective Receptive Field (iERF). On the local side, Sharing Ratio Decomposition (SRD) expresses each PFV as a mixture of upstream PFVs via sharing ratios and propagates iERFs to construct class-discriminative saliency maps. SRD yields high-resolution, activation-faithful explanations, is robust to targeted manipulation and noise, and remains activation-agnostic across common nonlinearities. For the global view, we introduce Concept-Anchored Feature Explanation (CAFE), which utilizes the iERF as a semantic label, grounding abstract latent vectors in verifiable pixel-level evidence. With CAFE, we address the challenge of non-localized sparse autoencoder latents--especially in Transformers, where early self-attention mixes distant context. To answer how representations are composed through depth, we propose the Interlayer Concept Graph with Interlayer Concept Attribution (ICAT), which quantifies concept-to-concept influence while isolating layer pairs; an interlayer insertion, deletion protocol identifies Integrated Gradients as the most faithful instantiation. Empirically, across ResNet50, VGG16, and ViTs, our framework outperforms baselines in both fidelity and robustness, successfully interprets dispersed SAE features, and exposes dominant concept routes in correct, misclassified, and adversarial cases. Grounded in iERFs, our approach provides a coherent, evidence-backed map from pixels to concepts to decisions.