Masked Autoencoder Self Pre-Training for Defect Detection in Microelectronics

📄 arXiv: 2504.10021v2 📥 PDF

作者: Nikolai Röhrich, Alwin Hoffmann, Richard Nordsieck, Emilio Zarbali, Alireza Javanmardi

分类: cs.CV

发布日期: 2025-04-14 (更新: 2025-08-12)

备注: 16 pages, 5 figures


💡 一句话要点

提出基于掩码自编码器的微电子缺陷检测自监督预训练方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 微电子缺陷检测 自监督学习 掩码自编码器 视觉Transformer 预训练 数据稀疏 扫描声学显微镜

📋 核心要点

  1. 微电子缺陷检测领域Transformer应用受限,主要原因是数据需求高和标注成本高,导致数据稀疏。
  2. 提出基于掩码自编码器(MAE)的自监督预训练方法,直接在目标数据集上进行预训练,无需依赖其他数据集。
  3. 实验结果表明,该方法显著优于监督ViT、自然图像预训练ViT以及先进的CNN缺陷检测模型。

📝 摘要(中文)

尽管Transformer在各种计算机视觉任务中超越了卷积神经网络(CNN),但微电子缺陷检测仍然主要依赖于CNN。我们假设这种差距是由于a) Transformer对数据的需求更高,以及b) 微电子的(带标签)图像生成过程成本高昂,因此数据稀疏。虽然在其他领域,在大规模自然图像数据集上进行预训练可以缓解这个问题,但在微电子领域,由于领域数据和自然图像的差异,迁移学习受到阻碍。我们通过自监督预训练来解决这一挑战,模型直接在目标数据集上进行预训练,而不是在另一个数据集上。我们提出了一个基于掩码自编码器(MAE)的资源高效的视觉Transformer(ViT)预训练框架,用于微电子中的缺陷检测。我们使用一个包含少于10,000张扫描声学显微镜(SAM)图像的数据集进行预训练和缺陷检测。我们的实验结果表明,与a) 监督ViT,b) 在自然图像数据集上预训练的ViT,以及c) 微电子中使用的最先进的基于CNN的缺陷检测模型相比,我们的方法带来了显著的性能提升。此外,可解释性分析表明,我们的自监督预训练模型关注缺陷相关特征,如焊料材料中的裂纹,而基线模型通常关注虚假模式。这表明我们的方法产生了特定于缺陷的特征表示,从而为这个数据稀疏领域产生了更可解释和更具泛化性的Transformer模型。

🔬 方法详解

问题定义:微电子缺陷检测任务中,Transformer模型由于数据需求量大,且微电子图像标注成本高昂,导致数据稀疏,难以有效训练。现有方法依赖CNN或自然图像预训练,但领域差异导致迁移学习效果不佳。

核心思路:采用自监督学习,直接在目标微电子图像数据集上进行预训练,学习特定领域的特征表示。利用掩码自编码器(MAE)进行预训练,通过重建被掩盖的图像区域,迫使模型学习图像的内在结构和缺陷特征。

技术框架:该框架包含预训练和缺陷检测两个阶段。预训练阶段,输入图像被随机掩盖一部分区域,然后输入到ViT编码器中,编码器输出的特征被输入到解码器中,解码器重建被掩盖的图像区域。缺陷检测阶段,使用预训练的ViT模型作为特征提取器,然后连接分类器进行缺陷分类。

关键创新:最重要的创新点是提出了基于MAE的自监督预训练方法,用于解决微电子缺陷检测中的数据稀疏问题。与传统的监督学习或迁移学习方法不同,该方法可以直接在目标数据集上学习特定领域的特征表示,从而提高模型的泛化能力和检测精度。

关键设计:采用了ViT作为主干网络,并结合了MAE的掩码策略和重建损失。具体的掩码比例、解码器结构、损失函数权重等参数需要根据具体数据集进行调整。论文中使用了扫描声学显微镜(SAM)图像数据集,并针对该数据集进行了参数优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在微电子缺陷检测任务中取得了显著的性能提升。与监督ViT相比,性能提升显著;与在自然图像数据集上预训练的ViT相比,性能也有明显提升;与最先进的基于CNN的缺陷检测模型相比,该方法也取得了更好的结果。此外,可解释性分析表明,该方法学习到的特征更关注缺陷相关区域,例如焊料裂纹。

🎯 应用场景

该研究成果可应用于各种微电子制造过程中的缺陷检测,例如芯片、电路板、封装等。通过提高缺陷检测的准确性和效率,可以降低生产成本,提高产品质量,并加速新产品的开发。该方法也可推广到其他数据稀疏的工业检测领域。

📄 摘要(原文)

While transformers have surpassed convolutional neural networks (CNNs) in various computer vision tasks, microelectronics defect detection still largely relies on CNNs. We hypothesize that this gap is due to the fact that a) transformers have an increased need for data and b) (labelled) image generation procedures for microelectronics are costly, and data is therefore sparse. Whereas in other domains, pre-training on large natural image datasets can mitigate this problem, in microelectronics transfer learning is hindered due to the dissimilarity of domain data and natural images. We address this challenge through self pre-training, where models are pre-trained directly on the target dataset, rather than another dataset. We propose a resource-efficient vision transformer (ViT) pre-training framework for defect detection in microelectronics based on masked autoencoders (MAE). We perform pre-training and defect detection using a dataset of less than 10,000 scanning acoustic microscopy (SAM) images. Our experimental results show that our approach leads to substantial performance gains compared to a) supervised ViT, b) ViT pre-trained on natural image datasets, and c) state-of-the-art CNN-based defect detection models used in microelectronics. Additionally, interpretability analysis reveals that our self pre-trained models attend to defect-relevant features such as cracks in the solder material, while baseline models often attend to spurious patterns. This shows that our approach yields defect-specific feature representations, resulting in more interpretable and generalizable transformer models for this data-sparse domain.