This Looks Distinctly Like That: Grounding Interpretable Recognition in Stiefel Geometry against Neural Collapse

📄 arXiv: 2603.08374v1 📥 PDF

作者: Junhao Jia, Jiaqi Wang, Yunyou Liu, Haodong Jing, Yueyi Wu, Xian Wu, Yefeng Zheng

分类: cs.CV

发布日期: 2026-03-09


💡 一句话要点

提出自适应流形原型(AMP)框架,解决原型网络中的原型坍塌问题,提升细粒度识别的解释性和准确率。

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)

关键词: 原型网络 神经坍塌 Stiefel流形 黎曼优化 细粒度分类

📋 核心要点

  1. 原型网络易发生原型坍塌,导致可解释性降低,这是由于神经坍塌现象将类内方差压缩到低维空间。
  2. 提出自适应流形原型(AMP)框架,利用Stiefel流形上的黎曼优化,将原型表示为正交基,避免原型坍塌。
  3. 实验表明,AMP在细粒度分类任务上达到了state-of-the-art的精度,并显著提升了因果忠实性。

📝 摘要(中文)

原型网络提供了一种内在的、基于案例的解释机制,但其可解释性常因原型坍塌而受损,即多个原型退化为高度冗余的证据。我们认为这种失效模式源于神经坍塌的终端动态,其中交叉熵优化抑制了类内方差,并将类条件特征推向低维极限。为了缓解这个问题,我们提出了自适应流形原型(AMP),该框架利用Stiefel流形上的黎曼优化将类原型表示为正交基,并通过构造使秩一原型坍塌变得不可行。AMP进一步通过非负容量向量上的近端梯度更新来学习类特定的有效秩,并引入空间正则化器,以减少旋转模糊性并鼓励局部化的、非重叠的部分证据。在细粒度基准上的大量实验表明,AMP在实现最先进的分类精度的同时,显著提高了相对于先前可解释模型的因果忠实性。

🔬 方法详解

问题定义:原型网络旨在通过学习具有代表性的原型来提高模型的可解释性,但常见的原型坍塌问题导致多个原型聚集到同一区域,丧失了区分不同类别的能力,降低了模型的可解释性和性能。现有的交叉熵损失优化会抑制类内方差,加剧原型坍塌现象。

核心思路:论文的核心思路是将类原型表示为Stiefel流形上的正交基,利用黎曼优化来学习这些正交基。通过这种方式,强制原型之间保持一定的距离,避免原型坍塌。同时,引入类特定的有效秩学习机制,允许模型自适应地选择每个类别所需的原型数量。

技术框架:AMP框架主要包含以下几个模块:1) 特征提取器:用于提取输入图像的特征表示。2) 自适应流形原型层:将每个类别的原型表示为Stiefel流形上的正交基,并使用黎曼优化进行更新。3) 容量向量学习:通过近端梯度更新学习一个非负容量向量,用于确定每个类别的有效秩。4) 空间正则化器:引入空间正则化项,减少旋转模糊性,并鼓励原型关注图像的不同局部区域。

关键创新:该论文的关键创新在于:1) 使用Stiefel流形上的黎曼优化来表示和学习原型,有效避免了原型坍塌。2) 引入类特定的有效秩学习机制,允许模型自适应地选择每个类别所需的原型数量。3) 提出了空间正则化器,进一步提高了原型的可解释性。与现有方法相比,AMP在保证分类精度的同时,显著提高了模型的可解释性和因果忠实性。

关键设计:1) Stiefel流形上的黎曼优化采用 retraction 和 vector transport 等操作,保证优化过程在流形上进行。2) 容量向量的学习采用近端梯度更新,并使用非负约束。3) 空间正则化器包括两个部分:一个是鼓励原型关注不同区域的非重叠正则化项,另一个是减少旋转模糊性的正则化项。损失函数由交叉熵损失、容量向量正则化项和空间正则化项组成。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AMP在多个细粒度图像分类数据集上取得了state-of-the-art的性能,例如在CUB-200-2011数据集上,AMP的分类精度超过了现有可解释模型,并且显著提高了因果忠实性。实验结果表明,AMP能够学习到更具代表性和可解释性的原型,从而提高了模型的分类精度和可解释性。

🎯 应用场景

该研究成果可应用于细粒度图像识别、医学图像分析、以及其他需要高可解释性的分类任务中。通过提供更具解释性的模型,可以帮助用户更好地理解模型的决策过程,从而提高模型的可靠性和可信度。此外,该方法还可以用于知识发现,例如,通过分析学习到的原型,可以发现不同类别之间的关键差异。

📄 摘要(原文)

Prototype networks provide an intrinsic case based explanation mechanism, but their interpretability is often undermined by prototype collapse, where multiple prototypes degenerate to highly redundant evidence. We attribute this failure mode to the terminal dynamics of Neural Collapse, where cross entropy optimization suppresses intra class variance and drives class conditional features toward a low dimensional limit. To mitigate this, we propose Adaptive Manifold Prototypes (AMP), a framework that leverages Riemannian optimization on the Stiefel manifold to represent class prototypes as orthonormal bases and make rank one prototype collapse infeasible by construction. AMP further learns class specific effective rank via a proximal gradient update on a nonnegative capacity vector, and introduces spatial regularizers that reduce rotational ambiguity and encourage localized, non overlapping part evidence. Extensive experiments on fine-grained benchmarks demonstrate that AMP achieves state-of-the-art classification accuracy while significantly improving causal faithfulness over prior interpretable models.