Multimodal RAG-driven Anomaly Detection and Classification in Laser Powder Bed Fusion using Large Language Models

作者: Kiarash Naghavi Khanghah, Zhiling Chen, Lela Romeo, Qian Yang, Rajiv Malhotra, Farhad Imani, Hongyi Xu

分类: cs.AI

发布日期: 2025-05-20

备注: ASME 2025 International Design Engineering Technical Conferences and Computers and Information in Engineering Conference IDETC/CIE2025, August 17-20, 2025, Anaheim, CA (IDETC2025-168615)

💡 一句话要点

提出基于多模态RAG的增材制造异常检测与分类框架，无需训练数据。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 增材制造 异常检测 多模态学习 检索增强生成 零样本学习

📋 核心要点

增材制造面临缺陷和过程异常的挑战，现有方法依赖大量训练数据，泛化性差。
提出基于多模态RAG的框架，从文献中检索相关信息，实现零样本异常检测与分类。
实验结果表明，该框架在不同L-PBF数据集上具有良好的适应性，且GPT-4o-mini表现更优。

📝 摘要（中文）

本研究提出了一种新颖的基于检索增强生成（RAG）的多模态框架，该框架能够自动化增材制造过程中多种异常的检测。该框架利用从文献中检索到的信息，包括图像和描述性文本，而非训练数据集。该框架集成了来自科学文献的文本和图像检索以及多模态生成模型，以在激光粉末床熔融（L-PBF）环境中执行零样本异常识别、分类和解释生成。该框架在来自橡树岭国家实验室的四个L-PBF制造数据集上进行了评估，这些数据集具有不同的打印机品牌、型号和材料。评估表明，该框架具有跨不同图像的适应性和泛化性，无需额外训练。使用Qwen2-VL-2B和GPT-4o-mini作为框架内的多模态大语言模型（MLLM）的对比分析表明，GPT-4o-mini在制造异常分类方面优于Qwen2-VL-2B和比例随机基线。此外，RAG系统的评估证实，通过减少幻觉风险并提供额外信息，整合检索机制可将平均准确率提高12%。该框架可以通过整合新兴研究成果不断更新，从而无缝适应增材制造技术的不断发展。这种可扩展、自动化和零样本能力的框架简化了增材制造异常分析，提高了效率和准确性。

🔬 方法详解

问题定义：论文旨在解决激光粉末床熔融（L-PBF）增材制造过程中异常检测与分类的问题。现有方法通常依赖于大量的标注数据进行训练，这在实际应用中成本高昂且难以推广到新的材料和工艺参数。此外，现有方法的泛化能力有限，难以适应不同打印机和材料带来的差异。

核心思路：论文的核心思路是利用检索增强生成（RAG）框架，从已有的科学文献中检索与当前异常相关的文本和图像信息，然后利用多模态大语言模型（MLLM）对异常进行分类和解释。这种方法避免了对大量标注数据的依赖，实现了零样本学习，提高了模型的泛化能力。

技术框架：该框架主要包含以下几个模块：1) 文献检索模块：从科学文献数据库中检索与当前L-PBF过程相关的文本和图像信息。2) 多模态融合模块：将检索到的文本和图像信息与L-PBF过程中的传感器数据进行融合。3) 多模态大语言模型（MLLM）：利用MLLM对融合后的信息进行分析，实现异常检测、分类和解释生成。4) 评估模块：对MLLM的性能进行评估，并根据评估结果对框架进行优化。

关键创新：该论文的关键创新在于将RAG框架应用于增材制造异常检测与分类领域，实现了零样本学习。与传统的监督学习方法相比，该方法无需对大量数据进行标注，降低了成本，提高了模型的泛化能力。此外，该方法利用多模态信息融合，提高了异常检测的准确性。

关键设计：论文中使用了Qwen2-VL-2B和GPT-4o-mini作为MLLM进行对比实验。RAG系统通过检索相关文献，减少幻觉并提供额外信息，将平均准确率提高了12%。具体的检索策略和多模态融合方法在论文中未详细描述，属于未知信息。

📊 实验亮点

实验结果表明，该框架在四个L-PBF数据集上表现良好，验证了其适应性和泛化性。GPT-4o-mini在异常分类方面优于Qwen2-VL-2B和比例随机基线。RAG系统的评估证实，通过减少幻觉风险并提供额外信息，整合检索机制可将平均准确率提高12%。

🎯 应用场景

该研究成果可应用于增材制造的质量控制和过程优化，帮助工程师快速识别和诊断制造过程中的异常，提高产品质量和生产效率。该框架的零样本学习能力使其能够快速适应新的材料和工艺参数，降低了开发成本，具有广泛的应用前景。未来，该框架可以扩展到其他增材制造工艺，实现更全面的质量控制。

📄 摘要（原文）

Additive manufacturing enables the fabrication of complex designs while minimizing waste, but faces challenges related to defects and process anomalies. This study presents a novel multimodal Retrieval-Augmented Generation-based framework that automates anomaly detection across various Additive Manufacturing processes leveraging retrieved information from literature, including images and descriptive text, rather than training datasets. This framework integrates text and image retrieval from scientific literature and multimodal generation models to perform zero-shot anomaly identification, classification, and explanation generation in a Laser Powder Bed Fusion setting. The proposed framework is evaluated on four L-PBF manufacturing datasets from Oak Ridge National Laboratory, featuring various printer makes, models, and materials. This evaluation demonstrates the framework's adaptability and generalizability across diverse images without requiring additional training. Comparative analysis using Qwen2-VL-2B and GPT-4o-mini as MLLM within the proposed framework highlights that GPT-4o-mini outperforms Qwen2-VL-2B and proportional random baseline in manufacturing anomalies classification. Additionally, the evaluation of the RAG system confirms that incorporating retrieval mechanisms improves average accuracy by 12% by reducing the risk of hallucination and providing additional information. The proposed framework can be continuously updated by integrating emerging research, allowing seamless adaptation to the evolving landscape of AM technologies. This scalable, automated, and zero-shot-capable framework streamlines AM anomaly analysis, enhancing efficiency and accuracy.

Multimodal RAG-driven Anomaly Detection and Classification in Laser Powder Bed Fusion using Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理