Sparsity as a Key: Unlocking New Insights from Latent Structures for Out-of-Distribution Detection

📄 arXiv: 2604.26409v1 📥 PDF

作者: Ahyoung Oh, Wonseok Shin, Songkuk Kim

分类: cs.CV

发布日期: 2026-04-29

备注: 8 pages, 6 figures, supplementary material included, CVPR 2026


💡 一句话要点

提出基于稀疏自编码器的ViT异常检测方法,提升模型安全性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 异常检测 视觉Transformer 稀疏自编码器 可解释性 类激活配置文件

📋 核心要点

  1. 现有OOD检测方法依赖于纠缠的特征表示,缺乏可解释性,限制了其在安全敏感领域的应用。
  2. 利用Top-k稀疏自编码器解耦ViT的[CLS] token特征,揭示ID数据中类特定的激活模式(CAPs)。
  3. 通过量化OOD样本对CAPs结构的破坏程度,设计评分函数,在FPR95指标上取得显著提升。

📝 摘要(中文)

稀疏自编码器(SAEs)在解释大型语言模型(LLMs)方面表现出显著的成功,通过将密集表示分解为稀疏的、语义的组件。然而,它们在分析视觉Transformer(ViTs)方面的潜力在很大程度上仍未被探索。本文首次将SAEs应用于ViT的[CLS] token,用于异常检测(OOD),解决了现有方法依赖于纠缠特征表示的局限性。我们提出了一个新颖的框架,利用Top-k SAE将密集的[CLS]特征解耦为结构化的潜在空间。通过这种分析,我们发现In-Distribution(ID)数据表现出一致的、特定于类的激活模式,我们将其形式化为类激活配置文件(CAPs)。我们的研究揭示了一个关键的结构不变性:ID样本在CAPs中保持稳定的模式,而OOD样本系统地破坏这种结构。利用这一洞察力,我们引入了一个基于核心能量分布差异的评分函数,以量化与理想激活分布的偏差。我们的方法在FPR95指标上取得了优异的成果,这对于跨多个基准的安全敏感应用至关重要,同时也取得了具有竞争力的AUROC。总的来说,我们的发现表明,SAEs揭示的稀疏、解耦的特征可以作为视觉模型中鲁棒的OOD检测的强大、可解释的工具。

🔬 方法详解

问题定义:现有的异常检测方法在应用于视觉Transformer (ViT) 时,通常依赖于模型内部高度纠缠的特征表示。这种纠缠使得难以区分正常数据和异常数据,并且缺乏可解释性,尤其是在安全敏感的应用中,例如自动驾驶或医疗诊断。因此,需要一种能够解耦特征表示并提供清晰的异常判别依据的方法。

核心思路:本文的核心思路是利用稀疏自编码器 (SAE) 将 ViT 的 [CLS] token 的密集特征表示分解为稀疏的、语义上可解释的组件。通过这种分解,可以揭示正常数据(In-Distribution, ID)中存在的稳定的、类特定的激活模式,并将其形式化为类激活配置文件 (Class Activation Profiles, CAPs)。异常数据 (Out-of-Distribution, OOD) 会破坏这些稳定的模式,从而可以基于这种破坏程度进行异常检测。

技术框架:该方法主要包含以下几个阶段:1) 使用 ViT 提取图像的 [CLS] token 特征;2) 使用 Top-k 稀疏自编码器 (SAE) 对 [CLS] token 特征进行分解,得到稀疏的潜在表示;3) 分析 ID 数据的稀疏激活模式,构建类激活配置文件 (CAPs);4) 对于新的样本,计算其稀疏激活模式与 CAPs 的差异;5) 使用基于核心能量分布差异的评分函数,量化这种差异,并以此作为异常检测的依据。

关键创新:该方法最重要的创新点在于将稀疏自编码器应用于 ViT 的异常检测,并利用稀疏表示揭示了 ID 数据中稳定的类激活配置文件 (CAPs)。与现有方法相比,该方法不仅能够提高异常检测的准确率,还提供了更强的可解释性,使得可以理解模型做出异常判断的原因。

关键设计:Top-k 稀疏自编码器 (SAE) 的设计是关键。Top-k SAE 强制潜在空间中的激活是稀疏的,只保留前 k 个最活跃的神经元。损失函数包括重构损失和稀疏性惩罚项。核心能量分布差异的评分函数的设计也至关重要,它能够有效地量化样本的激活模式与 CAPs 之间的差异。具体的参数设置(例如 k 的值,稀疏性惩罚项的权重)需要根据具体的数据集进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在多个OOD检测基准测试中取得了优异的成果,尤其是在FPR95指标上表现突出,表明其在保证低误报率的同时,能够有效检测出异常样本。同时,该方法在AUROC指标上也取得了具有竞争力的结果,证明了其整体性能的优越性。与现有方法相比,该方法不仅提高了检测精度,还提供了更强的可解释性。

🎯 应用场景

该研究成果可应用于多种安全敏感领域,例如自动驾驶中的道路异常检测、医疗影像分析中的疾病诊断、以及工业生产中的质量控制等。通过提高异常检测的准确性和可解释性,可以有效降低安全风险,提升决策的可靠性,并为未来的智能系统设计提供新的思路。

📄 摘要(原文)

Sparse Autoencoders (SAEs) have demonstrated significant success in interpreting Large Language Models (LLMs) by decomposing dense representations into sparse, semantic components. However, their potential for analyzing Vision Transformers (ViTs) remains largely under-explored. In this work, we present the first application of SAEs to the ViT [CLS] token for out-of-distribution (OOD) detection, addressing the limitation of existing methods that rely on entangled feature representations. We propose a novel framework utilizing a Top-k SAE to disentangle the dense [CLS] features into a structured latent space. Through this analysis, we reveal that in-distribution (ID) data exhibits consistent, class-specific activation patterns, which we formalize as Class Activation Profiles (CAPs). Our study uncovers a key structural invariant: while ID samples preserve a stable pattern within CAPs, OOD samples systematically disrupt this structure. Leveraging this insight, we introduce a scoring function based on the divergence of core energy profiles to quantify the deviation from ideal activation profiles. Our method achieves strong results on the FPR95 metric, critical for safety-sensitive applications across multiple benchmarks, while also achieving competitive AUROC. Overall, our findings demonstrate that the sparse, disentangled features revealed by SAEs can serve as a powerful, interpretable tool for robust OOD detection in vision models.