SubspaceAD: Training-Free Few-Shot Anomaly Detection via Subspace Modeling
作者: Camile Lendering, Erkut Akdag, Egor Bondarev
分类: cs.CV, cs.LG
发布日期: 2026-02-28
💡 一句话要点
SubspaceAD:基于子空间建模的免训练少样本异常检测方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 异常检测 少样本学习 免训练 子空间建模 主成分分析 工业视觉检测 DINOv2
📋 核心要点
- 现有少样本异常检测方法依赖记忆库、辅助数据集或视觉-语言模型的多模态调整,复杂度较高。
- SubspaceAD利用预训练视觉基础模型DINOv2提取特征,通过PCA建模正常样本的低维子空间,无需训练。
- 实验表明,SubspaceAD在MVTec-AD和VisA数据集上取得了优异的单样本和少样本异常检测性能,超越现有方法。
📝 摘要(中文)
本文提出了一种名为SubspaceAD的免训练少样本异常检测方法,用于解决工业检测中视觉异常检测问题,该问题通常需要在每个类别仅有少量正常图像的情况下进行训练。SubspaceAD方法无需训练,包含两个简单阶段:首先,利用预训练的DINOv2骨干网络从少量正常图像中提取patch级别的特征;然后,对这些特征进行主成分分析(PCA),以估计正常变化的低维子空间。在推理阶段,通过相对于该子空间的重建残差来检测异常,从而产生可解释且具有统计意义的异常分数。实验表明,SubspaceAD方法在单样本和少样本设置下均实现了最先进的性能,无需训练、提示调整或记忆库。在MVTec-AD数据集上,单样本异常检测的图像级别和像素级别AUROC分别达到98.0%和97.6%,在VisA数据集上分别达到93.3%和98.3%,超过了先前的最佳结果。
🔬 方法详解
问题定义:工业视觉检测中,异常检测任务面临的挑战是,每个类别往往只有极少量的正常样本可供训练,而异常样本则难以获取。现有方法通常需要复杂的训练流程,例如构建记忆库、利用辅助数据集或对视觉-语言模型进行微调,这增加了部署和维护的成本。
核心思路:SubspaceAD的核心思路是,利用预训练的视觉基础模型(如DINOv2)提取的特征已经包含了丰富的语义信息,足以区分正常样本和异常样本。通过对少量正常样本的特征进行主成分分析(PCA),可以学习到一个低维子空间,该子空间能够有效地捕捉正常样本的变化模式。异常样本的特征在该子空间上的重建误差会显著高于正常样本,从而实现异常检测。
技术框架:SubspaceAD方法包含两个主要阶段:特征提取和子空间建模。首先,使用预训练的DINOv2模型从输入图像中提取patch级别的特征。然后,对从少量正常图像中提取的特征进行PCA,得到一个低维子空间。在推理阶段,对于新的输入图像,同样提取patch级别的特征,并将其投影到学习到的子空间中。计算原始特征与重建特征之间的残差,作为异常分数。
关键创新:SubspaceAD的关键创新在于,它是一种完全免训练的方法,无需任何微调或额外的训练数据。它充分利用了预训练视觉基础模型的强大特征提取能力,并通过简单的PCA建模实现了高效的异常检测。与现有方法相比,SubspaceAD更加简洁、高效,且易于部署。
关键设计:SubspaceAD的关键设计包括:1) 使用DINOv2作为特征提取器,因为它能够提供高质量的视觉特征;2) 使用PCA进行子空间建模,因为它是一种简单且有效的降维方法;3) 使用重建残差作为异常分数,因为它能够有效地衡量输入样本与正常样本分布的偏差。PCA降维后的维度需要根据具体数据集进行调整,以平衡模型的复杂度和性能。
🖼️ 关键图片
📊 实验亮点
SubspaceAD在MVTec-AD数据集上取得了显著的性能提升,单样本图像级别AUROC达到98.0%,像素级别AUROC达到97.6%。在VisA数据集上,单样本图像级别AUROC达到93.3%,像素级别AUROC达到98.3%。这些结果表明,SubspaceAD在少样本异常检测任务中具有强大的竞争力,超越了现有的最先进方法。
🎯 应用场景
SubspaceAD在工业视觉检测领域具有广泛的应用前景,例如产品缺陷检测、表面瑕疵检测、安全监控等。该方法无需训练,易于部署,可以快速适应新的检测任务。此外,SubspaceAD还可以应用于医疗图像分析、自动驾驶等领域,用于检测异常的图像或视频帧。
📄 摘要(原文)
Detecting visual anomalies in industrial inspection often requires training with only a few normal images per category. Recent few-shot methods achieve strong results employing foundation-model features, but typically rely on memory banks, auxiliary datasets, or multi-modal tuning of vision-language models. We therefore question whether such complexity is necessary given the feature representations of vision foundation models. To answer this question, we introduce SubspaceAD, a training-free method, that operates in two simple stages. First, patch-level features are extracted from a small set of normal images by a frozen DINOv2 backbone. Second, a Principal Component Analysis (PCA) model is fit to these features to estimate the low-dimensional subspace of normal variations. At inference, anomalies are detected via the reconstruction residual with respect to this subspace, producing interpretable and statistically grounded anomaly scores. Despite its simplicity, SubspaceAD achieves state-of-the-art performance across one-shot and few-shot settings without training, prompt tuning, or memory banks. In the one-shot anomaly detection setting, SubspaceAD achieves image-level and pixel-level AUROC of 98.0% and 97.6% on the MVTec-AD dataset, and 93.3% and 98.3% on the VisA dataset, respectively, surpassing prior state-of-the-art results. Code and demo are available atthis https URL.