A Survey on RGB, 3D, and Multimodal Approaches for Unsupervised Industrial Image Anomaly Detection

📄 arXiv: 2410.21982v2 📥 PDF

作者: Yuxuan Lin, Yang Chang, Xuan Tong, Jiawen Yu, Antonio Liotta, Guofan Huang, Wei Song, Deyu Zeng, Zongze Wu, Yan Wang, Wenqiang Zhang

分类: cs.CV

发布日期: 2024-10-29 (更新: 2025-03-21)

备注: Accepted by Information Fusion

🔗 代码/项目: GITHUB


💡 一句话要点

综述:面向非监督工业图像异常检测的RGB、3D和多模态方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 工业图像异常检测 非监督学习 RGB图像 3D数据 多模态融合 智能制造 计算机视觉

📋 核心要点

  1. 现有工业图像异常检测综述主要集中于RGB模态,缺乏对3D和多模态方法的系统性研究。
  2. 本文对RGB、3D和多模态三种模态下的非监督工业图像异常检测任务进行了全面回顾,填补了现有综述的空白。
  3. 该综述总结了不同模态下UIAD的主要挑战,并对未来发展方向提出了见解,为研究人员提供参考。

📝 摘要(中文)

随着工业信息化的发展,非监督异常检测技术有效地克服了异常样本稀缺的问题,显著提高了智能制造的自动化和可靠性。工业图像异常检测作为其重要分支,侧重于通过计算机视觉技术自动识别工业场景中的视觉异常(如产品表面缺陷、装配错误和设备外观异常)。随着非监督工业图像异常检测(UIAD)的快速发展,不仅在RGB设置中,而且在3D和多模态(RGB和3D)设置中也取得了出色的检测性能。然而,现有的综述主要集中在RGB设置中的UIAD任务,很少讨论3D和多模态设置。为了弥补这一差距,本文全面回顾了三种模态设置中的UIAD任务。具体来说,我们首先介绍了UIAD的任务概念和流程。然后,我们概述了三种模态设置(RGB、3D和多模态)中UIAD的研究,包括数据集和方法,并回顾了多模态设置中的多模态特征融合策略。最后,我们总结了UIAD任务在三种模态设置中面临的主要挑战,并为未来的发展方向提供了见解,旨在为研究人员提供全面的参考,并为工业信息化的发展提供新的视角。相应的资源可在https://github.com/Sunny5250/Awesome-Multi-Setting-UIAD上找到。

🔬 方法详解

问题定义:论文旨在解决非监督工业图像异常检测领域,特别是3D和多模态数据处理方面的综述缺失问题。现有综述主要关注RGB图像,忽略了3D信息和多模态融合的潜力,限制了研究人员对该领域全貌的理解。

核心思路:论文的核心思路是对RGB、3D和多模态三种模态下的非监督工业图像异常检测方法进行系统性梳理和分析。通过对比不同模态下的方法、数据集和评估指标,总结现有方法的优缺点,并探讨未来发展方向。这种多模态视角有助于研究人员更好地理解和利用不同类型的数据,从而提升异常检测的性能。

技术框架:该综述首先介绍UIAD的任务定义和流程,然后分别概述RGB、3D和多模态设置下的研究进展,包括数据集、方法和评估指标。对于多模态设置,重点回顾了多模态特征融合策略。最后,总结了三种模态设置下UIAD面临的主要挑战,并展望了未来发展方向。

关键创新:该综述的主要创新在于其对3D和多模态UIAD的关注。现有综述大多集中于RGB图像,而该综述填补了3D和多模态领域的空白,为研究人员提供了更全面的视角。此外,该综述还总结了多模态特征融合策略,为多模态UIAD的研究提供了指导。

关键设计:该综述的关键设计在于其结构化的组织方式。首先,明确定义了UIAD的任务和流程。然后,分别对RGB、3D和多模态设置下的研究进行概述,并对多模态特征融合策略进行重点回顾。最后,总结了三种模态设置下UIAD面临的主要挑战,并展望了未来发展方向。这种结构化的组织方式使得研究人员能够快速了解该领域的全貌,并找到自己感兴趣的研究方向。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该综述系统性地总结了RGB、3D和多模态非监督工业图像异常检测方法,填补了现有综述的空白。通过对比不同模态下的方法和数据集,为研究人员提供了全面的参考。此外,该综述还总结了多模态特征融合策略,为多模态UIAD的研究提供了指导。

🎯 应用场景

该研究成果可应用于智能制造、质量控制、工业自动化等领域。通过对产品表面缺陷、装配错误和设备外观异常的自动检测,可以提高生产效率、降低生产成本、提升产品质量。未来,该研究有望推动工业自动化水平的进一步提升,实现更加智能化的生产过程。

📄 摘要(原文)

In the advancement of industrial informatization, unsupervised anomaly detection technology effectively overcomes the scarcity of abnormal samples and significantly enhances the automation and reliability of smart manufacturing. As an important branch, industrial image anomaly detection focuses on automatically identifying visual anomalies in industrial scenarios (such as product surface defects, assembly errors, and equipment appearance anomalies) through computer vision techniques. With the rapid development of Unsupervised industrial Image Anomaly Detection (UIAD), excellent detection performance has been achieved not only in RGB setting but also in 3D and multimodal (RGB and 3D) settings. However, existing surveys primarily focus on UIAD tasks in RGB setting, with little discussion in 3D and multimodal settings. To address this gap, this artical provides a comprehensive review of UIAD tasks in the three modal settings. Specifically, we first introduce the task concept and process of UIAD. We then overview the research on UIAD in three modal settings (RGB, 3D, and multimodal), including datasets and methods, and review multimodal feature fusion strategies in multimodal setting. Finally, we summarize the main challenges faced by UIAD tasks in the three modal settings, and offer insights into future development directions, aiming to provide researchers with a comprehensive reference and offer new perspectives for the advancement of industrial informatization. Corresponding resources are available at https://github.com/Sunny5250/Awesome-Multi-Setting-UIAD.