AnomalyVFM -- Transforming Vision Foundation Models into Zero-Shot Anomaly Detectors

作者: Matic Fučka, Vitjan Zavrtanik, Danijel Skočaj

分类: cs.CV

发布日期: 2026-01-28

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出AnomalyVFM以解决零样本异常检测问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 零样本检测 异常检测 视觉基础模型 合成数据 低秩适配器 置信加权损失 机器学习 计算机视觉

📋 核心要点

现有的零样本异常检测方法在性能上存在不足，尤其是基于视觉基础模型的技术滞后于视觉语言模型。
论文提出AnomalyVFM框架，通过合成数据集生成和高效的适应机制，提升了视觉基础模型在异常检测中的表现。
实验结果表明，AnomalyVFM在9个数据集上实现了94.1%的AUROC，较现有方法提升了3.3个百分点，显示出显著的性能优势。

📝 摘要（中文）

零样本异常检测旨在在没有任何领域内训练图像的情况下检测和定位图像中的异常区域。尽管最近的方法利用了视觉语言模型（VLMs），如CLIP，来转移高层次概念知识，但基于纯视觉基础模型（VFMs）的技术，如DINOv2，性能却相对滞后。我们认为，这一差距源于两个实际问题：现有辅助异常检测数据集的多样性有限，以及VFM适应策略过于浅显。为了解决这两个挑战，我们提出了AnomalyVFM，一个通用且有效的框架，将任何预训练的VFM转变为强大的零样本异常检测器。我们的方案结合了稳健的三阶段合成数据集生成方案和参数高效的适应机制，利用低秩特征适配器和置信加权像素损失。这些组件使现代VFM在性能上显著超越当前的最先进方法。具体而言，以RADIO作为骨干，AnomalyVFM在9个多样化数据集上实现了94.1%的平均图像级AUROC，超越了之前的方法3.3个百分点。

🔬 方法详解

问题定义：论文要解决的具体问题是如何在没有任何领域内训练图像的情况下进行异常检测。现有方法的痛点在于，基于视觉基础模型的技术在性能上落后于视觉语言模型，主要由于数据集多样性不足和适应策略浅显。

核心思路：论文的核心解决思路是提出AnomalyVFM框架，通过合成数据集生成和参数高效的适应机制，提升视觉基础模型的异常检测能力。这样的设计旨在充分利用已有的预训练模型，同时克服现有方法的局限性。

技术框架：整体架构包括三个主要模块：合成数据集生成、低秩特征适配器和置信加权像素损失。首先，通过合成数据集生成多样化的训练样本；其次，利用低秩适配器进行高效的模型适应；最后，通过置信加权像素损失优化检测结果。

关键创新：最重要的技术创新点在于结合了合成数据生成和参数高效的适应机制，使得视觉基础模型能够在零样本条件下显著提升异常检测性能。这与现有方法的本质区别在于，AnomalyVFM不依赖于领域内的训练数据。

关键设计：关键设计包括低秩特征适配器的参数设置和置信加权像素损失的定义。这些设计确保了模型在适应过程中能够有效捕捉到异常特征，同时避免了过拟合和计算资源的浪费。

🖼️ 关键图片

📊 实验亮点

实验结果显示，AnomalyVFM在9个多样化数据集上实现了94.1%的平均图像级AUROC，较现有最先进方法提升了3.3个百分点。这一显著的性能提升证明了该方法在零样本异常检测中的有效性和优越性。

🎯 应用场景

该研究的潜在应用领域包括工业检测、医疗影像分析和安全监控等场景。在这些领域中，能够有效检测异常情况对于提高系统的安全性和可靠性具有重要价值。未来，该方法可能推动更多基于视觉基础模型的异常检测技术的发展，拓宽其应用范围。

📄 摘要（原文）

Zero-shot anomaly detection aims to detect and localise abnormal regions in the image without access to any in-domain training images. While recent approaches leverage vision-language models (VLMs), such as CLIP, to transfer high-level concept knowledge, methods based on purely vision foundation models (VFMs), like DINOv2, have lagged behind in performance. We argue that this gap stems from two practical issues: (i) limited diversity in existing auxiliary anomaly detection datasets and (ii) overly shallow VFM adaptation strategies. To address both challenges, we propose AnomalyVFM, a general and effective framework that turns any pretrained VFM into a strong zero-shot anomaly detector. Our approach combines a robust three-stage synthetic dataset generation scheme with a parameter-efficient adaptation mechanism, utilising low-rank feature adapters and a confidence-weighted pixel loss. Together, these components enable modern VFMs to substantially outperform current state-of-the-art methods. More specifically, with RADIO as a backbone, AnomalyVFM achieves an average image-level AUROC of 94.1% across 9 diverse datasets, surpassing previous methods by significant 3.3 percentage points. Project Page: https://maticfuc.github.io/anomaly_vfm/

AnomalyVFM -- Transforming Vision Foundation Models into Zero-Shot Anomaly Detectors

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理