MMAD: A Comprehensive Benchmark for Multimodal Large Language Models in Industrial Anomaly Detection
作者: Xi Jiang, Jian Li, Hanqiu Deng, Yong Liu, Bin-Bin Gao, Yifeng Zhou, Jialin Li, Chengjie Wang, Feng Zheng
分类: cs.AI, cs.CV
发布日期: 2024-10-12 (更新: 2025-02-21)
备注: Accepted by ICLR 2025. The code and data are available at https://github.com/jam-cc/MMAD
💡 一句话要点
提出MMAD基准以解决工业异常检测中的多模态语言模型挑战
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大型语言模型 工业异常检测 数据集生成 性能评估 智能制造
📋 核心要点
- 现有的多模态大型语言模型在工业异常检测中的应用尚未得到系统研究,存在显著的性能不足。
- 本文提出MMAD基准,定义七个关键子任务,并生成包含39,672个问题的工业图像数据集,以评估MLLMs的性能。
- 实验结果显示,商业模型的平均准确率为74.9%,但仍未达到工业应用的要求,表明当前模型有待改进。
📝 摘要(中文)
在工业检测领域,多模态大型语言模型(MLLMs)因其强大的语言能力和泛化能力而具有重塑实际应用的潜力。然而,尽管在多个领域展现出卓越的解决问题能力,MLLMs在工业异常检测中的应用尚未得到系统研究。为填补这一空白,本文提出了MMAD,这是首个针对工业异常检测的全谱MLLMs基准。我们定义了工业检测中MLLMs的七个关键子任务,并设计了一种新颖的管道生成MMAD数据集,包含39,672个问题和8,366张工业图像。通过MMAD,我们对多种最先进的MLLMs进行了全面的定量评估,发现商业模型的平均准确率为74.9%,但仍远未满足工业需求。我们的分析表明,当前MLLMs在回答与工业异常和缺陷相关的问题上仍有显著改进空间,并探讨了两种无训练的性能提升策略,突显其在未来研究中的潜力。
🔬 方法详解
问题定义:本文旨在解决多模态大型语言模型在工业异常检测中的应用不足,现有方法在处理工业异常和缺陷问题时表现不佳,无法满足实际需求。
核心思路:通过构建MMAD基准,定义关键子任务并生成丰富的数据集,以全面评估和提升MLLMs在工业场景中的表现。
技术框架:整体架构包括数据集生成、任务定义和模型评估三个主要模块。数据集生成模块负责创建包含多样化问题和图像的数据集,任务定义模块明确各子任务的目标,模型评估模块则对不同模型的性能进行量化分析。
关键创新:最重要的创新在于首次系统性地构建了针对工业异常检测的MLLMs基准,填补了这一领域的研究空白,并提供了标准化的评估框架。
关键设计:在数据集生成过程中,采用了多样化的问题设计和图像选择策略,以确保数据集的代表性和挑战性。同时,评估指标的选择也考虑了工业应用的实际需求,确保结果的实用性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,商业模型的平均准确率达到74.9%,尽管这一结果在工业应用中仍显不足,但为后续研究提供了重要的基准和改进方向。通过探索无训练的性能提升策略,本文为未来的研究提供了新的思路。
🎯 应用场景
该研究的潜在应用领域包括制造业、质量控制和设备监测等,能够帮助企业提高异常检测的效率和准确性,降低生产成本。未来,随着模型性能的提升,MMAD基准有望推动多模态语言模型在工业领域的广泛应用,促进智能制造的发展。
📄 摘要(原文)
In the field of industrial inspection, Multimodal Large Language Models (MLLMs) have a high potential to renew the paradigms in practical applications due to their robust language capabilities and generalization abilities. However, despite their impressive problem-solving skills in many domains, MLLMs' ability in industrial anomaly detection has not been systematically studied. To bridge this gap, we present MMAD, the first-ever full-spectrum MLLMs benchmark in industrial Anomaly Detection. We defined seven key subtasks of MLLMs in industrial inspection and designed a novel pipeline to generate the MMAD dataset with 39,672 questions for 8,366 industrial images. With MMAD, we have conducted a comprehensive, quantitative evaluation of various state-of-the-art MLLMs. The commercial models performed the best, with the average accuracy of GPT-4o models reaching 74.9%. However, this result falls far short of industrial requirements. Our analysis reveals that current MLLMs still have significant room for improvement in answering questions related to industrial anomalies and defects. We further explore two training-free performance enhancement strategies to help models improve in industrial scenarios, highlighting their promising potential for future research.