Zero-Shot Image Anomaly Detection Using Generative Foundation Models

📄 arXiv: 2507.22692v1 📥 PDF

作者: Lemar Abdi, Amaan Valiuddin, Francisco Caetano, Christiaan Viviers, Fons van der Sommen

分类: cs.CV

发布日期: 2025-07-30

备注: Accepted at the workshop of Anomaly Detection with Foundation Models, ICCV 2025


💡 一句话要点

利用生成式预训练模型实现零样本图像异常检测

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 零样本学习 异常检测 去噪扩散模型 生成式模型 分布外检测

📋 核心要点

  1. 现有异常检测方法通常需要针对特定数据集进行重新训练,泛化能力不足,难以适应开放世界环境。
  2. 该论文利用去噪扩散模型的去噪轨迹蕴含的丰富纹理和语义信息,通过分析Stein分数误差来识别异常样本。
  3. 实验结果表明,该方法在多个基准测试中表现优异,甚至超越了在ImageNet等大型数据集上训练的模型。

📝 摘要(中文)

在开放世界环境中部署安全的视觉系统,检测分布外(OOD)输入至关重要。本文重新审视扩散模型,并非将其作为生成器,而是作为OOD检测的通用感知模板。本研究探索了基于分数的生成模型作为语义异常检测的基础工具,应用于未见数据集。具体而言,我们利用去噪扩散模型(DDMs)的去噪轨迹作为纹理和语义信息的丰富来源。通过分析Stein分数误差,并通过结构相似性指标(SSIM)放大,我们提出了一种新颖的方法来识别异常样本,而无需在每个目标数据集上重新训练。我们的方法优于现有技术,并且依赖于在单个数据集(CelebA)上训练的单个模型——我们发现这是一个有效的基本分布,甚至在某些设置中优于更常用的数据集(如ImageNet)。实验结果表明,在某些基准测试中表现接近完美,在其他基准测试中具有显著的提升空间,突出了生成式预训练模型在异常检测中的优势和未来潜力。

🔬 方法详解

问题定义:论文旨在解决零样本图像异常检测问题,即在没有目标数据集的训练数据的情况下,检测出与正常数据分布不同的异常样本。现有方法通常需要针对特定数据集进行重新训练或微调,这限制了它们在实际应用中的泛化能力和效率。

核心思路:论文的核心思路是将预训练的去噪扩散模型(DDM)视为一种通用的感知模板,利用其去噪过程中的信息来判断输入样本是否属于正常分布。异常样本在去噪过程中会产生更大的误差,从而可以被检测出来。

技术框架:该方法主要包含以下几个步骤:1) 使用预训练的DDM对输入图像进行去噪;2) 计算去噪过程中的Stein分数误差,该误差反映了模型对输入样本的置信度;3) 使用结构相似性指标(SSIM)放大Stein分数误差,以提高异常检测的灵敏度;4) 根据放大的Stein分数误差来判断输入样本是否为异常样本。

关键创新:该方法的主要创新在于利用了DDM的去噪轨迹作为一种通用的感知模板,从而实现了零样本的异常检测。与现有方法相比,该方法无需针对特定数据集进行重新训练,具有更好的泛化能力和效率。此外,使用SSIM放大Stein分数误差也提高了异常检测的准确性。

关键设计:论文使用了预训练的CelebA数据集训练的DDM模型作为基础模型。Stein分数误差的计算方式为:||s(x_t, t) - abla_{x_t} log p(x_t)||^2,其中s(x_t, t)是DDM预测的噪声, abla_{x_t} log p(x_t)是真实噪声的梯度。SSIM用于比较原始图像和去噪后的图像,以放大Stein分数误差。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在多个基准测试中取得了优异的性能,甚至超越了在ImageNet等大型数据集上训练的模型。例如,在某些基准测试中,该方法实现了接近完美的性能。此外,该方法仅使用在CelebA数据集上训练的单个模型,就能够有效地检测不同数据集中的异常样本,证明了其良好的泛化能力。

🎯 应用场景

该研究成果可应用于工业质检、医疗影像分析、自动驾驶等领域。例如,在工业质检中,可以利用该方法检测生产线上的缺陷产品;在医疗影像分析中,可以辅助医生诊断疾病;在自动驾驶中,可以识别道路上的异常物体,提高行车安全性。该方法具有零样本特性,无需大量标注数据,降低了应用成本。

📄 摘要(原文)

Detecting out-of-distribution (OOD) inputs is pivotal for deploying safe vision systems in open-world environments. We revisit diffusion models, not as generators, but as universal perceptual templates for OOD detection. This research explores the use of score-based generative models as foundational tools for semantic anomaly detection across unseen datasets. Specifically, we leverage the denoising trajectories of Denoising Diffusion Models (DDMs) as a rich source of texture and semantic information. By analyzing Stein score errors, amplified through the Structural Similarity Index Metric (SSIM), we introduce a novel method for identifying anomalous samples without requiring re-training on each target dataset. Our approach improves over state-of-the-art and relies on training a single model on one dataset -- CelebA -- which we find to be an effective base distribution, even outperforming more commonly used datasets like ImageNet in several settings. Experimental results show near-perfect performance on some benchmarks, with notable headroom on others, highlighting both the strength and future potential of generative foundation models in anomaly detection.