Robust Modality-incomplete Anomaly Detection: A Modality-instructive Framework with Benchmark
作者: Bingchen Miao, Wenqiao Zhang, Juncheng Li, Wangyu Wu, Siliang Tang, Zhaocheng Li, Haochen Shi, Jun Xiao, Yueting Zhuang
分类: cs.CV, cs.MM
发布日期: 2024-10-02 (更新: 2025-10-27)
💡 一句话要点
提出RADAR框架,解决模态缺失下的鲁棒工业异常检测问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 工业异常检测 多模态学习 模态缺失 鲁棒性 Transformer HyperNetwork 伪数据增强
📋 核心要点
- 现有工业异常检测方法假设所有模态数据配对完整,忽略了实际应用中模态缺失的普遍性,导致模型在不完整数据上泛化能力差。
- 论文提出RADAR框架,通过模态不完整指导和双伪混合模块,使模型能够鲁棒地处理各种模态缺失情况,并缓解过拟合问题。
- 实验结果表明,RADAR在作者构建的MIIAD数据集上显著优于现有方法,验证了其在模态不完整场景下的有效性和实用价值。
📝 摘要(中文)
本文首次全面研究了模态不完整的工业异常检测(MIIAD)问题,该问题在实际应用中由于数据采集的局限性普遍存在。作者构建了包含丰富模态缺失设置的MIIAD基准数据集,发现现有MIAD方法在该数据集上性能显著下降。为了解决这个问题,作者提出了一个新颖的两阶段鲁棒模态感知融合与检测框架RADAR。该框架利用模态不完整指导来引导多模态Transformer鲁棒地适应各种模态不完整场景,并基于HyperNetwork实现自适应参数学习。此外,构建了一个双伪混合模块来突出模态组合的独特性,缓解过拟合问题,进一步增强MIIAD模型的鲁棒性。实验结果表明,所提出的RADAR在新建的MIIAD数据集上显著优于传统MIAD方法,证明了其在实际应用中的价值。
🔬 方法详解
问题定义:论文旨在解决多模态工业异常检测(MIAD)中,由于实际应用中数据采集的限制,导致部分模态数据缺失的问题。现有MIAD方法通常假设所有模态数据都是完整配对的,这使得它们在模态不完整的数据上表现不佳,容易过拟合,泛化能力不足。
核心思路:论文的核心思路是使模型能够感知模态的完整性,并根据不同的模态组合自适应地进行特征融合和异常检测。通过模态不完整指导,让模型学习在不同模态缺失情况下如何有效地利用现有信息。同时,通过双伪混合模块,突出不同模态组合的独特性,防止模型过度依赖某些特定模态,从而提高鲁棒性。
技术框架:RADAR框架包含两个主要阶段:模态感知融合和异常检测。第一阶段,利用模态不完整指导的多模态Transformer进行特征提取和融合,并通过HyperNetwork实现自适应参数学习。第二阶段,构建双伪混合模块,进一步增强模型的鲁棒性。整体流程是,首先输入多模态数据(可能包含缺失模态),经过模态感知融合模块提取特征,然后通过双伪混合模块进行特征增强,最后进行异常检测。
关键创新:论文的关键创新在于:1) 提出了模态不完整指导,引导模型学习在不同模态缺失情况下的有效特征表示;2) 构建了双伪混合模块,通过突出模态组合的独特性,缓解过拟合问题,提高模型的鲁棒性;3) 构建了MIIAD基准数据集,为模态不完整工业异常检测的研究提供了标准平台。
关键设计:模态不完整指导通过引入模态指示向量,告知Transformer当前存在的模态信息,从而使模型能够自适应地调整特征提取和融合策略。HyperNetwork用于生成Transformer的参数,使其能够根据不同的模态组合进行自适应调整。双伪混合模块通过生成伪造的模态数据,并将其与真实数据混合,从而增强模型对不同模态组合的感知能力。损失函数的设计也考虑了模态缺失的情况,例如,可以对缺失模态的预测结果进行降权处理。
🖼️ 关键图片
📊 实验亮点
实验结果表明,RADAR在MIIAD数据集上显著优于现有的MIAD方法。例如,在某些模态缺失情况下,RADAR的检测精度比现有方法提高了10%以上。此外,消融实验验证了模态不完整指导和双伪混合模块的有效性,证明了RADAR框架的各个组成部分都对性能提升做出了贡献。
🎯 应用场景
该研究成果可广泛应用于工业质量检测领域,尤其是在自动化生产线、智能制造等场景中。通过利用RGB图像和3D点云等多模态信息,能够更准确地检测产品表面的缺陷和异常。该方法在模态数据不完整的情况下仍能保持较高的检测精度,具有很强的实用价值,有助于提高生产效率和产品质量,降低人工检测成本。
📄 摘要(原文)
Multimodal Industrial Anomaly Detection (MIAD), which utilizes 3D point clouds and 2D RGB images to identify abnormal regions in products, plays a crucial role in industrial quality inspection. However, traditional MIAD settings assume that all 2D and 3D modalities are paired, ignoring the fact that multimodal data collected from the real world is often imperfect due to missing modalities. Additionally, models trained on modality-incomplete data are prone to overfitting. Therefore, MIAD models that demonstrate robustness against modality-incomplete data are highly desirable in practice. To address this, we introduce a pioneering study that comprehensively investigates Modality-Incomplete Industrial Anomaly Detection (MIIAD), and under the guidance of experts, we construct the MIIAD Bench with rich modality-missing settings to account for imperfect learning environments with incomplete multimodal information. As expected, we find that most existing MIAD methods perform poorly on the MIIAD Bench, leading to significant performance degradation. To tackle this challenge, we propose a novel two-stage Robust modAlity-aware fusing and Detecting framewoRk, abbreviated as RADAR. Specifically: i) We propose Modality-incomplete Instruction to guide the multimodal Transformer to robustly adapt to various modality-incomplete scenarios, and implement adaptive parameter learning based on HyperNetwork. ii) Then, we construct a Double-Pseudo Hybrid Module to highlight the uniqueness of modality combinations, mitigating overfitting issues and further enhancing the robustness of the MIIAD model. Our experimental results demonstrate that the proposed RADAR significantly outperforms traditional MIAD methods on our newly created MIIAD dataset, proving its practical application value.