Zero-Shot Image Anomaly Detection Using Generative Foundation Models

作者: Lemar Abdi, Amaan Valiuddin, Francisco Caetano, Christiaan Viviers, Fons van der Sommen

分类: cs.CV

发布日期: 2025-07-30

备注: Accepted at the workshop of Anomaly Detection with Foundation Models, ICCV 2025

💡 一句话要点

利用生成式预训练模型实现零样本图像异常检测

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 零样本学习 异常检测 去噪扩散模型 生成式模型 分布外检测

📋 核心要点

现有异常检测方法通常需要针对特定数据集进行重新训练，泛化能力不足，难以适应开放世界环境。
该论文利用去噪扩散模型的去噪轨迹蕴含的丰富纹理和语义信息，通过分析Stein分数误差来识别异常样本。
实验结果表明，该方法在多个基准测试中表现优异，甚至超越了在ImageNet等大型数据集上训练的模型。

📝 摘要（中文）

在开放世界环境中部署安全的视觉系统，检测分布外(OOD)输入至关重要。本文重新审视扩散模型，并非将其作为生成器，而是作为OOD检测的通用感知模板。本研究探索了基于分数的生成模型作为语义异常检测的基础工具，应用于未见数据集。具体而言，我们利用去噪扩散模型(DDMs)的去噪轨迹作为纹理和语义信息的丰富来源。通过分析Stein分数误差，并通过结构相似性指标(SSIM)放大，我们提出了一种新颖的方法来识别异常样本，而无需在每个目标数据集上重新训练。我们的方法优于现有技术，并且依赖于在单个数据集（CelebA）上训练的单个模型——我们发现这是一个有效的基本分布，甚至在某些设置中优于更常用的数据集（如ImageNet）。实验结果表明，在某些基准测试中表现接近完美，在其他基准测试中具有显著的提升空间，突出了生成式预训练模型在异常检测中的优势和未来潜力。

🔬 方法详解

问题定义：论文旨在解决零样本图像异常检测问题，即在没有目标数据集的训练数据的情况下，检测出与正常数据分布不同的异常样本。现有方法通常需要针对特定数据集进行重新训练或微调，这限制了它们在实际应用中的泛化能力和效率。

核心思路：论文的核心思路是将预训练的去噪扩散模型（DDM）视为一种通用的感知模板，利用其去噪过程中的信息来判断输入样本是否属于正常分布。异常样本在去噪过程中会产生更大的误差，从而可以被检测出来。

技术框架：该方法主要包含以下几个步骤：1) 使用预训练的DDM对输入图像进行去噪；2) 计算去噪过程中的Stein分数误差，该误差反映了模型对输入样本的置信度；3) 使用结构相似性指标（SSIM）放大Stein分数误差，以提高异常检测的灵敏度；4) 根据放大的Stein分数误差来判断输入样本是否为异常样本。

关键创新：该方法的主要创新在于利用了DDM的去噪轨迹作为一种通用的感知模板，从而实现了零样本的异常检测。与现有方法相比，该方法无需针对特定数据集进行重新训练，具有更好的泛化能力和效率。此外，使用SSIM放大Stein分数误差也提高了异常检测的准确性。

关键设计：论文使用了预训练的CelebA数据集训练的DDM模型作为基础模型。Stein分数误差的计算方式为：||s(x_t, t) - abla_{x_t} log p(x_t)||^2，其中s(x_t, t)是DDM预测的噪声， abla_{x_t} log p(x_t)是真实噪声的梯度。SSIM用于比较原始图像和去噪后的图像，以放大Stein分数误差。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在多个基准测试中取得了优异的性能，甚至超越了在ImageNet等大型数据集上训练的模型。例如，在某些基准测试中，该方法实现了接近完美的性能。此外，该方法仅使用在CelebA数据集上训练的单个模型，就能够有效地检测不同数据集中的异常样本，证明了其良好的泛化能力。

🎯 应用场景

该研究成果可应用于工业质检、医疗影像分析、自动驾驶等领域。例如，在工业质检中，可以利用该方法检测生产线上的缺陷产品；在医疗影像分析中，可以辅助医生诊断疾病；在自动驾驶中，可以识别道路上的异常物体，提高行车安全性。该方法具有零样本特性，无需大量标注数据，降低了应用成本。

📄 摘要（原文）

Detecting out-of-distribution (OOD) inputs is pivotal for deploying safe vision systems in open-world environments. We revisit diffusion models, not as generators, but as universal perceptual templates for OOD detection. This research explores the use of score-based generative models as foundational tools for semantic anomaly detection across unseen datasets. Specifically, we leverage the denoising trajectories of Denoising Diffusion Models (DDMs) as a rich source of texture and semantic information. By analyzing Stein score errors, amplified through the Structural Similarity Index Metric (SSIM), we introduce a novel method for identifying anomalous samples without requiring re-training on each target dataset. Our approach improves over state-of-the-art and relies on training a single model on one dataset -- CelebA -- which we find to be an effective base distribution, even outperforming more commonly used datasets like ImageNet in several settings. Experimental results show near-perfect performance on some benchmarks, with notable headroom on others, highlighting both the strength and future potential of generative foundation models in anomaly detection.

Zero-Shot Image Anomaly Detection Using Generative Foundation Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理