Zero-Shot Industrial Anomaly Segmentation with Image-Aware Prompt Generation

📄 arXiv: 2504.13560v1 📥 PDF

作者: SoYoung Park, Hyewon Lee, Mingyu Choi, Seunghoon Han, Jong-Ryul Lee, Sungsu Lim, Tae-Ho Kim

分类: cs.CV, cs.AI

发布日期: 2025-04-18

备注: Accepted to PAKDD 2025, 12 pages


💡 一句话要点

提出IAP-AS,通过图像感知提示生成实现工业异常分割的零样本学习。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 零样本学习 异常分割 工业质检 图像提示生成 大型语言模型

📋 核心要点

  1. 现有零样本异常分割方法依赖固定提示,难以适应复杂多变的工业场景。
  2. IAP-AS利用图像标记模型和LLM,动态生成上下文感知的提示,提升模型适应性。
  3. 实验表明,IAP-AS在F1-max指标上提升高达10%,验证了其优越的性能。

📝 摘要(中文)

异常分割对于工业质量、维护和稳定性至关重要。现有的文本引导零样本异常分割模型虽然有效,但依赖于固定的提示,限制了其在多样化工业场景中的适应性。这突显了对灵活、上下文感知提示策略的需求。我们提出了图像感知提示异常分割(IAP-AS),它通过使用图像标记模型和大型语言模型(LLM)生成动态的、上下文感知的提示来增强异常分割。IAP-AS从图像中提取对象属性以生成上下文感知的提示,从而提高在动态和非结构化工业环境中的适应性和泛化能力。在我们的实验中,IAP-AS将F1-max指标提高了高达10%,证明了其卓越的适应性和泛化能力。它为跨行业的异常分割提供了一个可扩展的解决方案。

🔬 方法详解

问题定义:论文旨在解决工业场景下零样本异常分割问题。现有方法依赖于预定义的固定文本提示,无法充分利用图像中的上下文信息,导致在不同工业场景下的泛化能力不足。这些方法难以适应动态和非结构化的工业环境,需要人工设计提示,成本高且效率低。

核心思路:论文的核心思路是利用图像中的视觉信息自动生成上下文相关的提示。通过图像标记模型提取图像中的对象属性,然后利用大型语言模型(LLM)将这些属性转化为自然语言提示。这种动态生成的提示能够更好地捕捉图像的上下文信息,从而提高异常分割的准确性和泛化能力。

技术框架:IAP-AS的整体框架包含以下几个主要模块:1) 图像标记模型:用于从输入图像中提取对象属性。2) 大型语言模型(LLM):用于将提取的对象属性转化为自然语言提示。3) 异常分割模型:使用生成的提示来指导异常分割。整个流程是:首先,输入图像经过图像标记模型提取对象属性;然后,LLM根据这些属性生成上下文感知的提示;最后,异常分割模型利用这些提示进行异常区域的分割。

关键创新:IAP-AS的关键创新在于动态生成上下文感知的提示。与现有方法使用固定提示不同,IAP-AS能够根据输入图像的内容自动生成提示,从而更好地适应不同的工业场景。这种方法避免了人工设计提示的繁琐过程,提高了模型的自动化程度和可扩展性。

关键设计:图像标记模型可以使用预训练的图像分类或目标检测模型,例如ResNet或YOLO。LLM可以使用预训练的语言模型,例如GPT或BERT,并进行微调以生成更适合异常分割的提示。异常分割模型可以使用现有的零样本分割模型,例如CLIPSeg,并将其与动态生成的提示相结合。损失函数可以使用交叉熵损失或Dice损失来优化分割结果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,IAP-AS在工业异常分割任务中取得了显著的性能提升。具体而言,IAP-AS在F1-max指标上提升了高达10%,超过了现有的零样本异常分割方法。这些结果验证了IAP-AS的有效性和优越性,证明了其在动态和非结构化工业环境中的适应性和泛化能力。

🎯 应用场景

该研究成果可广泛应用于工业质量检测、设备维护和生产安全等领域。例如,可用于检测产品表面的缺陷、识别设备运行中的异常情况,以及监控生产过程中的安全隐患。通过自动化异常分割,可以提高生产效率、降低人工成本,并提升产品质量和安全性。未来,该技术有望进一步扩展到其他领域,如医疗影像分析和智能交通等。

📄 摘要(原文)

Anomaly segmentation is essential for industrial quality, maintenance, and stability. Existing text-guided zero-shot anomaly segmentation models are effective but rely on fixed prompts, limiting adaptability in diverse industrial scenarios. This highlights the need for flexible, context-aware prompting strategies. We propose Image-Aware Prompt Anomaly Segmentation (IAP-AS), which enhances anomaly segmentation by generating dynamic, context-aware prompts using an image tagging model and a large language model (LLM). IAP-AS extracts object attributes from images to generate context-aware prompts, improving adaptability and generalization in dynamic and unstructured industrial environments. In our experiments, IAP-AS improves the F1-max metric by up to 10%, demonstrating superior adaptability and generalization. It provides a scalable solution for anomaly segmentation across industries