SPG: Sparse-Projected Guides with Sparse Autoencoders for Zero-Shot Anomaly Detection

📄 arXiv: 2604.02871 📥 PDF

作者: Tomoyasu Nanaumi, Yukino Tsuzuki, Junichi Okubo, Junichiro Fujii, Takayoshi Yamashita

分类: cs.CV

发布日期: 2026-04-06


💡 一句话要点

提出基于稀疏自编码器的稀疏投影引导SPG,用于零样本异常检测。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 零样本学习 异常检测 稀疏自编码器 特征表示学习 工业质检

📋 核心要点

  1. 现有零样本异常检测方法依赖手工或学习的提示,缺乏灵活性和泛化性。
  2. SPG通过在稀疏自编码器潜在空间学习稀疏引导系数,生成正常/异常引导向量,无需提示。
  3. 实验表明,SPG在MVTec AD和VisA数据集上,图像级检测和像素级分割性能均表现出色。

📝 摘要(中文)

本文研究了使用冻结的基础模型特征进行零样本异常检测和分割,其中所有可学习的参数仅在带标签的辅助数据集上训练,并部署到未见过的目标类别,无需任何目标域适应。现有的基于提示的方法使用手工制作或学习的提示嵌入作为正常/异常状态的参考向量。我们提出了稀疏投影引导(SPG),这是一个无提示框架,它在稀疏自编码器(SAE)潜在空间中学习稀疏引导系数,这些系数通过SAE字典生成正常/异常引导向量。SPG在带标签的辅助数据集上采用两阶段学习策略:(i)在patch-token特征上训练SAE,以及(ii)仅使用辅助像素级掩码优化引导系数,同时冻结骨干网络和SAE。在跨数据集零样本设置下的MVTec AD和VisA上,SPG实现了有竞争力的图像级检测和强大的像素级分割;使用DINOv3,SPG在比较的方法中获得了最高的像素级AUROC。我们还报告了使用OpenCLIP(ViT-L/14@336px)实例化的SPG,以使骨干网络与基于CLIP的基线对齐。此外,学习到的引导系数将决策追溯到一小组字典原子,揭示了类别通用和类别特定的因素。

🔬 方法详解

问题定义:零样本异常检测旨在无需目标域数据的情况下,检测和分割未见过的异常。现有方法依赖于手工设计或学习的提示,这些提示可能难以泛化到新的类别和场景,并且需要额外的训练开销。这些方法的痛点在于提示工程的复杂性和泛化能力的不足。

核心思路:SPG的核心思路是利用稀疏自编码器(SAE)学习到的潜在空间,通过学习稀疏的引导系数来生成正常和异常的引导向量。这些引导向量可以有效地指导异常检测和分割,而无需依赖于具体的提示。通过稀疏性约束,可以提取出更具代表性的特征,从而提高模型的泛化能力。

技术框架:SPG框架包含两个主要阶段:1) 在辅助数据集上训练稀疏自编码器(SAE),用于学习patch-token特征的潜在表示。2) 在SAE的潜在空间中,学习稀疏引导系数,用于生成正常和异常的引导向量。在训练引导系数时,骨干网络和SAE的参数被冻结,只优化引导系数。最终,利用生成的引导向量进行异常检测和分割。

关键创新:SPG的关键创新在于提出了无提示的异常检测框架,通过学习稀疏的引导系数,有效地利用了基础模型的特征。与现有方法相比,SPG无需进行提示工程,并且具有更好的泛化能力。此外,通过稀疏性约束,可以提取出更具代表性的特征,从而提高模型的性能。

关键设计:SPG的关键设计包括:1) 使用稀疏自编码器(SAE)学习patch-token特征的潜在表示,SAE的损失函数包含重构损失和稀疏性惩罚项。2) 使用辅助像素级掩码优化引导系数,引导系数的损失函数旨在使生成的引导向量能够区分正常和异常区域。3) 冻结骨干网络和SAE的参数,只优化引导系数,以减少训练开销并提高泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SPG在MVTec AD和VisA数据集上取得了显著的性能提升。在MVTec AD数据集上,使用DINOv3作为骨干网络时,SPG在像素级AUROC指标上达到了最佳性能,超越了其他对比方法。此外,SPG使用OpenCLIP (ViT-L/14@336px)作为骨干网络时,也取得了具有竞争力的结果,验证了其有效性。

🎯 应用场景

SPG可应用于工业质检、医疗影像分析、安全监控等领域,用于检测产品缺陷、识别病变区域、发现异常行为等。其零样本特性使其能够快速部署到新的场景,无需大量标注数据,具有很高的实际应用价值和潜力。未来可进一步探索其在其他异常检测任务中的应用,例如时间序列异常检测、网络安全异常检测等。

📄 摘要(原文)

We study zero-shot anomaly detection and segmentation using frozen foundation model features, where all learnable parameters are trained only on a labeled auxiliary dataset and deployed to unseen target categories without any target-domain adaptation. Existing prompt-based approaches use handcrafted or learned prompt embeddings as reference vectors for normal/anomalous states. We propose Sparse-Projected Guides (SPG), a prompt-free framework that learns sparse guide coefficients in the Sparse Autoencoder (SAE) latent space, which generate normal/anomaly guide vectors via the SAE dictionary. SPG employs a two stage learning strategy on the labeled auxiliary dataset: (i) train an SAE on patch-token features, and (ii) optimize only guide coefficients using auxiliary pixel-level masks while freezing the backbone and SAE. On MVTec AD and VisA under cross-dataset zero-shot settings, SPG achieves competitive image-level detection and strong pixel-level segmentation; with DINOv3, SPG attains the highest pixellevel AUROC among the compared methods. We also report SPG instantiated with OpenCLIP (ViT-L/14@336px) to align the backbone with CLIP-based baselines. Moreover, the learned guide coefficients trace decisions back to a small set of dictionary atoms, revealing category-general and category-specific factors.