Audio-visual cross-modality knowledge transfer for machine learning-based in-situ monitoring in laser additive manufacturing
作者: Jiarui Xie, Mutahar Safdar, Lequn Chen, Seung Ki Moon, Yaoyao Fiona Zhao
分类: cs.CE, cs.LG
发布日期: 2024-08-09 (更新: 2025-02-08)
备注: 47 pages, 19 figures, 6 tables
DOI: 10.1016/j.addma.2025.104692
💡 一句话要点
提出跨模态知识迁移方法,用于激光增材制造过程的在位监测,降低成本。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 跨模态知识迁移 激光增材制造 在位监测 缺陷检测 语义对齐 多模态融合 机器学习
📋 核心要点
- 现有的激光增材制造在位监测系统依赖多模态融合,虽精度高但成本也高昂。
- 提出跨模态知识迁移方法,将知识从高成本模态迁移到低成本模态,降低硬件需求。
- 语义对齐方法在移除音频模态后,缺陷检测准确率达到98.6%,与多模态融合相当。
📝 摘要(中文)
本文提出了一种基于机器学习的激光增材制造(LAM)在位监测系统的跨模态知识迁移(CMKT)方法,用于检测异常和缺陷。多模态融合(集成视觉、音频等数据)虽然能提高监测性能,但也增加了成本。CMKT将知识从源模态迁移到目标模态,增强目标模态特征的代表性,从而在预测阶段移除源模态传感器。本文提出了三种CMKT方法:语义对齐、全监督映射和半监督映射。语义对齐方法在模态之间建立共享编码空间以促进知识迁移,采用语义对齐损失对齐相同组的分布(例如,视觉和音频缺陷组),并采用分离损失区分不同组(例如,视觉缺陷和音频无缺陷组)。两种映射方法通过全监督和半监督学习方法将特征从一种模态推导到另一种模态。在LAM在位缺陷检测的案例研究中,所提出的CMKT方法与多模态音视频融合进行了比较。语义对齐方法在预测阶段移除音频模态的情况下,实现了98.6%的准确率,与多模态融合获得的98.2%的准确率相当。通过可解释人工智能,我们发现语义对齐CMKT可以通过利用模态之间的内在相关性来提取更具代表性的特征,同时减少噪声。
🔬 方法详解
问题定义:激光增材制造(LAM)过程中的缺陷检测依赖于多模态传感器融合,例如视觉和音频。然而,部署和维护多种传感器增加了硬件、计算和运营成本。如何在保证检测精度的前提下,减少对多模态数据的依赖,降低成本,是一个关键问题。
核心思路:核心思想是通过跨模态知识迁移(CMKT),将信息量丰富的源模态(如音频)的知识迁移到目标模态(如视觉),从而增强目标模态的特征表示能力。这样,在预测阶段就可以移除源模态传感器,仅依赖目标模态数据进行缺陷检测,从而降低成本。
技术框架:该方法包含三个主要分支:语义对齐、全监督映射和半监督映射。语义对齐方法旨在建立一个跨模态的共享编码空间,通过对齐相同类别样本的特征分布,并分离不同类别样本的特征分布,实现知识迁移。全监督和半监督映射方法则通过学习一个映射函数,直接将源模态的特征转换为目标模态的特征。整体流程包括数据采集、特征提取、知识迁移模型训练和缺陷预测。
关键创新:关键创新在于提出了三种不同的跨模态知识迁移方法,特别是语义对齐方法,它通过学习模态之间的共享表示空间,有效地利用了模态之间的内在相关性,从而在移除源模态的情况下,仍然能够保持较高的缺陷检测精度。与直接进行特征映射的方法相比,语义对齐方法更加关注模态之间的语义关系。
关键设计:语义对齐方法使用语义对齐损失和分离损失。语义对齐损失旨在最小化相同类别(例如,视觉缺陷和音频缺陷)在共享编码空间中的距离,促使它们聚集在一起。分离损失旨在最大化不同类别(例如,视觉缺陷和音频无缺陷)在共享编码空间中的距离,使它们彼此分离。损失函数的具体形式未知,但其目标是学习一个能够区分不同缺陷类型的共享表示空间。
📊 实验亮点
实验结果表明,语义对齐CMKT方法在移除音频模态的情况下,缺陷检测准确率达到98.6%,与多模态音视频融合的98.2%准确率相当。这表明该方法能够在降低成本的同时,保持甚至略微提升缺陷检测性能。可解释AI分析表明,语义对齐CMKT能够提取更具代表性的特征,并减少噪声。
🎯 应用场景
该研究成果可应用于激光增材制造、焊接等工业制造过程的质量控制和缺陷检测。通过减少对多模态传感器的依赖,降低了在线监测系统的成本和复杂性,有助于实现更经济高效的智能制造。未来可扩展到其他制造过程和模态组合,提升生产效率和产品质量。
📄 摘要(原文)
Various machine learning (ML)-based in-situ monitoring systems have been developed to detect anomalies and defects in laser additive manufacturing (LAM) processes. While multimodal fusion, which integrates data from visual, audio, and other modalities, can improve monitoring performance, it also increases hardware, computational, and operational costs. This paper introduces a cross-modality knowledge transfer (CMKT) methodology for LAM in-situ monitoring, which transfers knowledge from a source modality to a target modality. CMKT enhances the representativeness of the features extracted from the target modality, allowing the removal of source modality sensors during prediction. This paper proposes three CMKT methods: semantic alignment, fully supervised mapping, and semi-supervised mapping. The semantic alignment method establishes a shared encoded space between modalities to facilitate knowledge transfer. It employs a semantic alignment loss to align the distributions of identical groups (e.g., visual and audio defective groups) and a separation loss to distinguish different groups (e.g., visual defective and audio defect-free groups). The two mapping methods transfer knowledge by deriving features from one modality to another using fully supervised and semi-supervised learning approaches. In a case study for LAM in-situ defect detection, the proposed CMKT methods were compared with multimodal audio-visual fusion. The semantic alignment method achieved an accuracy of 98.6% while removing the audio modality during the prediction phase, which is comparable to the 98.2% accuracy obtained through multimodal fusion. Using explainable artificial intelligence, we discovered that semantic alignment CMKT can extract more representative features while reducing noise by leveraging the inherent correlations between modalities.