Resilient Multimodal Industrial Surface Defect Detection with Uncertain Sensors Availability
作者: Shuai Jiang, Yunfeng Ma, Jingyu Zhou, Yuan Bian, Yaonan Wang, Min Liu
分类: cs.CV
发布日期: 2025-09-03
备注: Accepted to IEEE/ASME Transactions on Mechatronics
期刊: IEEE/ASME Transactions on Mechatronics, 2025
DOI: 10.1109/TMECH.2025.3607147
🔗 代码/项目: GITHUB
💡 一句话要点
提出跨模态提示学习以解决工业表面缺陷检测中的传感器不确定性问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态融合 工业缺陷检测 跨模态学习 对称对比学习 传感器不确定性 信息一致性 机器学习 计算机视觉
📋 核心要点
- 现有的多模态工业表面缺陷检测方法在传感器不确定性导致的模态缺失时表现不佳,难以有效融合信息。
- 本文提出跨模态提示学习和对称对比学习,旨在解决模态缺失问题并增强模态间的信息一致性。
- 实验结果显示,所提方法在缺失率为0.7的情况下,I-AUROC和P-AUROC分别提升至73.83%和93.05%,显著优于现有方法。
📝 摘要(中文)
多模态工业表面缺陷检测(MISDD)旨在通过融合RGB和3D模态来识别和定位工业产品中的缺陷。本文聚焦于由于传感器可用性不确定性导致的模态缺失问题。在此背景下,多模态融合面临学习模式转换和信息缺失等挑战。为此,我们首先提出跨模态提示学习,包括:i) 跨模态一致性提示用于建立双视觉模态的信息一致性;ii) 模态特定提示用于适应不同的输入模式;iii) 缺失感知提示用于补偿动态模态缺失造成的信息空缺。此外,我们提出对称对比学习,利用文本模态作为双视觉模态融合的桥梁。实验结果表明,所提方法在RGB和3D模态的总缺失率为0.7时,I-AUROC达到73.83%,P-AUROC达到93.05%,分别超过现有最先进方法3.84%和5.58%。
🔬 方法详解
问题定义:本文旨在解决多模态工业表面缺陷检测中,由于传感器可用性不确定性导致的模态缺失问题。现有方法在处理模态缺失时,常常面临信息不一致和信息空缺的挑战。
核心思路:论文提出的核心思路是通过跨模态提示学习和对称对比学习来增强模态间的信息融合能力,特别是在模态缺失的情况下,确保信息的一致性和完整性。
技术框架:整体架构包括三个主要模块:跨模态一致性提示、模态特定提示和缺失感知提示,结合对称对比学习,通过文本模态作为桥梁进行模态融合。
关键创新:最重要的技术创新点在于引入了缺失感知提示和对称对比学习,这些方法有效地解决了模态缺失带来的信息空缺问题,与现有方法相比,提供了更强的鲁棒性和准确性。
关键设计:在设计中,采用了特定的损失函数来优化模态间的一致性,并通过调整网络结构来适应不同模态的输入特征,确保模型在动态模态缺失情况下的有效性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,所提方法在RGB和3D模态的总缺失率为0.7时,I-AUROC达到73.83%,P-AUROC达到93.05%,分别比现有最先进方法提升了3.84%和5.58%。该方法在不同缺失类型和缺失率下均表现出色,显示出良好的鲁棒性。
🎯 应用场景
该研究的潜在应用领域包括制造业、质量控制和自动化检测等场景,能够提高工业产品缺陷检测的准确性和效率。未来,随着传感器技术的发展,该方法有望在更复杂的多模态环境中得到应用,推动智能制造的进步。
📄 摘要(原文)
Multimodal industrial surface defect detection (MISDD) aims to identify and locate defect in industrial products by fusing RGB and 3D modalities. This article focuses on modality-missing problems caused by uncertain sensors availability in MISDD. In this context, the fusion of multiple modalities encounters several troubles, including learning mode transformation and information vacancy. To this end, we first propose cross-modal prompt learning, which includes: i) the cross-modal consistency prompt serves the establishment of information consistency of dual visual modalities; ii) the modality-specific prompt is inserted to adapt different input patterns; iii) the missing-aware prompt is attached to compensate for the information vacancy caused by dynamic modalities-missing. In addition, we propose symmetric contrastive learning, which utilizes text modality as a bridge for fusion of dual vision modalities. Specifically, a paired antithetical text prompt is designed to generate binary text semantics, and triple-modal contrastive pre-training is offered to accomplish multimodal learning. Experiment results show that our proposed method achieves 73.83% I-AUROC and 93.05% P-AUROC with a total missing rate 0.7 for RGB and 3D modalities (exceeding state-of-the-art methods 3.84% and 5.58% respectively), and outperforms existing approaches to varying degrees under different missing types and rates. The source code will be available at https://github.com/SvyJ/MISDD-MM.