PatchEAD: Unifying Industrial Visual Prompting Frameworks for Patch-Exclusive Anomaly Detection

📄 arXiv: 2509.25856v1 📥 PDF

作者: Po-Han Huang, Jeng-Lin Li, Po-Hsuan Huang, Ming-Ching Chang, Wei-Chao Chen

分类: cs.CV

发布日期: 2025-09-30

备注: 10 pages, 5 figures


💡 一句话要点

PatchEAD:统一的工业视觉提示框架,用于补丁互斥异常检测

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 工业异常检测 视觉提示 基础模型 免训练学习 补丁相似性 分布外泛化 视觉检测

📋 核心要点

  1. 现有工业异常检测方法依赖于文本提示调优,忽略了视觉提示的统一性,导致模型部署和适配困难。
  2. PatchEAD框架通过对齐模块和前景掩蔽构建视觉提示,实现与多种基础模型兼容的免训练异常检测。
  3. 实验结果表明,PatchEAD在少量样本和批量零样本异常检测任务上优于现有方法,无需文本特征。

📝 摘要(中文)

工业异常检测越来越多地依赖于基础模型,以期在实际部署中实现强大的分布外泛化和快速适应。然而,过去的研究主要集中在文本提示调优上,而内在的视觉对应部分则被分散到每个基础模型特定的处理步骤中。为了解决这一局限性,我们提出了一个统一的、以补丁为中心的框架——补丁互斥异常检测(PatchEAD),从而实现与各种基础模型兼容的免训练异常检测。该框架构建了视觉提示技术,包括对齐模块和前景掩蔽。实验表明,与之前的工作相比,我们的方法在少量样本和批量零样本性能方面表现更优,尽管没有使用文本特征。我们的研究进一步考察了骨干网络结构和预训练特征如何影响补丁相似性的鲁棒性,为选择和配置用于实际视觉检测的基础模型提供了可操作的指导。这些结果证实,一个良好统一的纯补丁框架可以实现快速、轻量级的部署,而无需精心设计的文本提示。

🔬 方法详解

问题定义:现有工业异常检测方法依赖于预训练的基础模型,但针对不同模型需要定制化的文本提示工程,缺乏统一的视觉提示框架,导致部署和适配成本高昂。此外,现有方法对文本特征的过度依赖,限制了模型在纯视觉场景下的应用。

核心思路:PatchEAD的核心在于构建一个统一的、基于图像补丁的视觉提示框架,通过对齐模块和前景掩蔽等技术,提取图像的视觉特征,并利用补丁之间的相似性进行异常检测。该方法避免了对文本提示的依赖,实现了与多种基础模型的兼容性。

技术框架:PatchEAD框架主要包含以下几个模块:1) 图像分割:将输入图像分割成多个补丁。2) 特征提取:使用预训练的基础模型提取每个补丁的视觉特征。3) 对齐模块:对齐不同基础模型提取的特征,使其具有可比性。4) 前景掩蔽:通过掩蔽前景区域,突出显示异常区域。5) 相似性计算:计算补丁之间的相似性,并根据相似性得分判断是否存在异常。

关键创新:PatchEAD的关键创新在于:1) 提出了一个统一的视觉提示框架,可以与多种基础模型兼容。2) 通过对齐模块和前景掩蔽等技术,有效提取图像的视觉特征。3) 避免了对文本提示的依赖,实现了纯视觉的异常检测。与现有方法相比,PatchEAD具有更高的灵活性和可扩展性。

关键设计:对齐模块的设计至关重要,它需要将不同基础模型提取的特征映射到同一空间。前景掩蔽的实现方式也需要仔细考虑,以避免过度掩蔽或掩蔽不足。相似性计算方法的选择也会影响最终的检测效果。论文中具体使用了余弦相似度等方法,并对参数进行了优化。

📊 实验亮点

PatchEAD在少量样本和批量零样本异常检测任务上取得了显著的性能提升。实验结果表明,PatchEAD在不使用文本特征的情况下,仍然能够优于依赖文本提示的现有方法。此外,研究还分析了骨干网络结构和预训练特征对补丁相似性鲁棒性的影响,为实际应用中基础模型的选择提供了指导。

🎯 应用场景

PatchEAD可广泛应用于工业视觉检测领域,例如产品缺陷检测、表面瑕疵检测、异物检测等。该框架的免训练特性和与多种基础模型的兼容性,使其能够快速部署到不同的生产线上,降低了部署成本和维护难度。此外,该框架还可以应用于安防监控、医疗影像分析等领域,具有广阔的应用前景。

📄 摘要(原文)

Industrial anomaly detection is increasingly relying on foundation models, aiming for strong out-of-distribution generalization and rapid adaptation in real-world deployments. Notably, past studies have primarily focused on textual prompt tuning, leaving the intrinsic visual counterpart fragmented into processing steps specific to each foundation model. We aim to address this limitation by proposing a unified patch-focused framework, Patch-Exclusive Anomaly Detection (PatchEAD), enabling training-free anomaly detection that is compatible with diverse foundation models. The framework constructs visual prompting techniques, including an alignment module and foreground masking. Our experiments show superior few-shot and batch zero-shot performance compared to prior work, despite the absence of textual features. Our study further examines how backbone structure and pretrained characteristics affect patch-similarity robustness, providing actionable guidance for selecting and configuring foundation models for real-world visual inspection. These results confirm that a well-unified patch-only framework can enable quick, calibration-light deployment without the need for carefully engineered textual prompts.