Patch-aware Vector Quantized Codebook Learning for Unsupervised Visual Defect Detection

作者: Qisen Cheng, Shuhui Qu, Janghwan Lee

分类: cs.CV, cs.AI, cs.LG

发布日期: 2025-01-15

备注: 7 pages, Accepted to 36th IEEE ICTAI 2024

💡 一句话要点

提出基于Patch感知的向量量化码本学习方法，用于无监督视觉缺陷检测

🎯 匹配领域: 支柱四：生成式动作 (Generative Motion)

关键词: 无监督学习 视觉缺陷检测 向量量化 变分自编码器 码本学习 Patch感知 工业质检

📋 核心要点

无监督缺陷检测面临表达能力和紧凑性的挑战，现有方法难以平衡，易导致模式崩溃，影响检测精度。
提出Patch感知的动态码分配方案，使模型能够根据上下文进行码本选择，优化空间表征，提升正常与缺陷的区分度。
实验结果表明，该方法在MVTecAD、BTAD和MTSD等数据集上取得了state-of-the-art的性能。

📝 摘要（中文）

无监督视觉缺陷检测在工业应用中至关重要，它需要一个能够捕获正常数据特征并检测偏差的表征空间。在表达性和紧凑性之间取得平衡具有挑战性；过度表达的空间可能导致效率低下和模式崩溃，从而损害检测精度。本文提出了一种新方法，使用增强的VQ-VAE框架，并针对无监督缺陷检测进行了优化。我们的模型引入了一种patch感知的动态码分配方案，从而能够进行上下文相关的码分配，以优化空间表征。这种策略增强了正常-缺陷区分，并提高了推理过程中的检测精度。在MVTecAD、BTAD和MTSD数据集上的实验表明，我们的方法实现了最先进的性能。

🔬 方法详解

问题定义：论文旨在解决无监督视觉缺陷检测问题。现有方法在学习正常样本的表征时，难以在表达能力和紧凑性之间取得平衡。过度表达的模型容易过拟合正常样本，导致对细微缺陷的敏感度降低，同时也会增加计算复杂度。此外，现有方法可能存在模式崩溃问题，即模型只学习到部分正常样本的特征，从而无法有效区分正常样本和缺陷样本。

核心思路：论文的核心思路是利用向量量化变分自编码器（VQ-VAE）学习正常样本的紧凑表征，并通过引入patch感知的动态码本分配机制，增强模型对局部上下文信息的感知能力。通过这种方式，模型能够更准确地捕捉正常样本的特征，并有效区分正常样本和缺陷样本。

技术框架：该方法基于VQ-VAE框架，主要包含编码器、码本和解码器三个模块。编码器将输入图像编码为潜在表示，然后通过向量量化操作，将潜在表示映射到码本中的一个码字。解码器则根据选定的码字重构输入图像。关键在于引入了patch感知的动态码本分配机制，使得不同的图像区域可以根据其局部上下文信息选择不同的码字。

关键创新：该方法最重要的创新点在于提出了patch感知的动态码本分配方案。传统的VQ-VAE对所有图像区域使用相同的码本，忽略了不同区域之间的差异。而该方法根据图像的局部上下文信息，动态地为每个patch分配不同的码字，从而更好地捕捉了图像的局部特征。这种方法能够有效提高模型对细微缺陷的敏感度。

关键设计：具体来说，该方法首先将输入图像划分为多个patch，然后使用一个卷积神经网络提取每个patch的特征向量。接着，使用一个注意力机制，根据patch的特征向量计算每个码字的权重，并选择权重最高的码字作为该patch的量化结果。损失函数包括重构损失和量化损失，其中重构损失用于保证重构图像的质量，量化损失用于约束码本的学习。

🖼️ 关键图片

📊 实验亮点

该方法在MVTecAD、BTAD和MTSD等基准数据集上取得了state-of-the-art的性能。例如，在MVTecAD数据集上，该方法在多个类别的缺陷检测任务中均优于现有方法，平均AUROC指标提升显著。实验结果表明，该方法能够有效提高缺陷检测的准确性和鲁棒性。

🎯 应用场景

该研究成果可广泛应用于工业制造领域的表面缺陷检测，例如汽车零部件、电子元件、纺织品等产品的质量控制。通过自动检测产品表面的缺陷，可以提高生产效率、降低人工成本，并提升产品质量。此外，该方法还可以扩展到其他视觉异常检测任务，例如医疗图像分析、安全监控等领域，具有重要的实际应用价值和广阔的发展前景。

📄 摘要（原文）

Unsupervised visual defect detection is critical in industrial applications, requiring a representation space that captures normal data features while detecting deviations. Achieving a balance between expressiveness and compactness is challenging; an overly expressive space risks inefficiency and mode collapse, impairing detection accuracy. We propose a novel approach using an enhanced VQ-VAE framework optimized for unsupervised defect detection. Our model introduces a patch-aware dynamic code assignment scheme, enabling context-sensitive code allocation to optimize spatial representation. This strategy enhances normal-defect distinction and improves detection accuracy during inference. Experiments on MVTecAD, BTAD, and MTSD datasets show our method achieves state-of-the-art performance.

Patch-aware Vector Quantized Codebook Learning for Unsupervised Visual Defect Detection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理