A Survey on Foundation-Model-Based Industrial Defect Detection

📄 arXiv: 2502.19106v2 📥 PDF

作者: Tianle Yang, Luyao Chang, Jiadong Yan, Juntao Li, Zhi Wang, Ke Zhang

分类: cs.CV

发布日期: 2025-02-26 (更新: 2025-02-27)

备注: This work has been submitted to the IEEE for possible publication


💡 一句话要点

综述:基于预训练模型(Foundation Model)的工业缺陷检测方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 工业缺陷检测 预训练模型 Foundation Model 小样本学习 零样本学习 视觉检测 模型轻量化

📋 核心要点

  1. 传统工业缺陷检测方法依赖大量标注数据,泛化能力有限,难以适应快速变化的生产线。
  2. 该综述聚焦于利用预训练模型(Foundation Model)的先验知识,提升缺陷检测在小样本和零样本场景下的性能。
  3. 通过对比分析预训练模型和非预训练模型方法,为工业界选择合适的缺陷检测方案提供参考。

📝 摘要(中文)

随着工业产品日益丰富和复杂,视觉工业缺陷检测受到了广泛关注,包括二维和三维视觉特征建模。传统方法使用统计分析、异常数据合成建模和生成模型来分离产品缺陷特征并完成缺陷检测。近年来,预训练模型(Foundation Model)的出现带来了视觉和文本语义先验知识。许多方法基于预训练模型来提高检测精度,但同时也增加了模型复杂性并降低了推理速度。一些基于预训练模型的方法已经开始探索轻量级建模方式,这些方法逐渐受到关注,值得系统分析。本文对不同方面的预训练模型方法进行了系统的综述、比较和讨论,并简要回顾了最近发布的非预训练模型(NFM)方法。此外,我们从训练目标、模型结构和规模、模型性能以及未来探索的潜在方向等方面讨论了预训练模型和非预训练模型方法的差异。通过比较,我们发现预训练模型方法更适合小样本和零样本学习,这更符合实际的工业应用场景,值得深入研究。

🔬 方法详解

问题定义:工业缺陷检测旨在自动识别产品表面的缺陷,如划痕、裂纹、污渍等。传统方法依赖于大量标注数据进行训练,但在实际工业场景中,缺陷样本往往难以获取且种类繁多,导致模型泛化能力不足。此外,传统方法通常针对特定缺陷类型设计,缺乏通用性。

核心思路:利用预训练模型(Foundation Model)在海量数据上学习到的通用视觉和文本语义知识,将其迁移到工业缺陷检测任务中。预训练模型能够提取更鲁棒的特征表示,从而提高模型在小样本和零样本场景下的性能。同时,一些研究探索轻量级建模方式,以降低模型复杂度和提高推理速度。

技术框架:该综述对基于预训练模型的工业缺陷检测方法进行了分类和总结。整体框架包括:1)回顾传统非预训练模型方法;2)详细介绍基于预训练模型的缺陷检测方法,包括模型结构、训练策略和应用场景;3)对比分析预训练模型和非预训练模型方法在训练目标、模型结构、性能等方面的差异;4)探讨未来研究方向,如轻量级预训练模型设计、多模态融合等。

关键创新:该综述的关键创新在于系统性地总结和比较了基于预训练模型的工业缺陷检测方法,并分析了其与传统方法的差异。强调了预训练模型在小样本和零样本学习方面的优势,以及轻量级建模的重要性。

关键设计:综述中涉及的关键设计包括:不同预训练模型的选择(如视觉Transformer、CLIP等),针对缺陷检测任务的微调策略,以及轻量级模型的设计方法(如知识蒸馏、模型剪枝等)。此外,还讨论了损失函数的选择,如对比损失、交叉熵损失等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该综述强调了预训练模型在小样本和零样本工业缺陷检测中的优势,并指出其更符合实际工业应用场景。通过对比分析,发现预训练模型方法在缺陷检测精度和泛化能力方面优于传统方法,尤其是在缺陷样本稀缺的情况下。

🎯 应用场景

该研究成果可应用于各种工业生产线,实现自动化缺陷检测,提高产品质量和生产效率。例如,可用于汽车零部件、电子产品、纺织品等产品的表面缺陷检测。此外,该研究还可以扩展到其他视觉检测任务,如医疗影像分析、遥感图像处理等。

📄 摘要(原文)

As industrial products become abundant and sophisticated, visual industrial defect detection receives much attention, including two-dimensional and three-dimensional visual feature modeling. Traditional methods use statistical analysis, abnormal data synthesis modeling, and generation-based models to separate product defect features and complete defect detection. Recently, the emergence of foundation models has brought visual and textual semantic prior knowledge. Many methods are based on foundation models (FM) to improve the accuracy of detection, but at the same time, increase model complexity and slow down inference speed. Some FM-based methods have begun to explore lightweight modeling ways, which have gradually attracted attention and deserve to be systematically analyzed. In this paper, we conduct a systematic survey with comparisons and discussions of foundation model methods from different aspects and briefly review non-foundation model (NFM) methods recently published. Furthermore, we discuss the differences between FM and NFM methods from training objectives, model structure and scale, model performance, and potential directions for future exploration. Through comparison, we find FM methods are more suitable for few-shot and zero-shot learning, which are more in line with actual industrial application scenarios and worthy of in-depth research.