Multi-Modal Attention Networks for Enhanced Segmentation and Depth Estimation of Subsurface Defects in Pulse Thermography

📄 arXiv: 2501.09994v1 📥 PDF

作者: Mohammed Salah, Naoufel Werghi, Davor Svetinovic, Yusra Abdulrahman

分类: cs.CV, cs.AI, eess.IV

发布日期: 2025-01-17

备注: Pulse thermography, infrared thermography, defect segmentation, multi-modal networks, attention mechanism


💡 一句话要点

提出PT-Fusion,融合PCA和TSR模态,提升脉冲热成像缺陷分割与深度估计精度。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱八:物理动画 (Physics-based Animation)

关键词: 脉冲热成像 缺陷检测 多模态融合 注意力机制 深度估计 无损检测 数据增强

📋 核心要点

  1. 现有脉冲热成像缺陷检测方法独立处理PCA和TSR两种模态,忽略了它们之间的互补信息,限制了检测性能。
  2. PT-Fusion通过多模态注意力融合网络,有效融合PCA和TSR特征,增强缺陷分割和深度估计能力。
  3. 实验结果表明,PT-Fusion在缺陷分割和深度估计精度上优于现有方法,取得了10%的显著提升。

📝 摘要(中文)

本文提出了一种基于人工智能的脉冲热成像(PT)方法,用于无损检测(NDT),以自动检测各种工业部件中的隐藏缺陷。现有技术通常使用主成分分析(PCA)或热成像信号重建(TSR)来压缩PT序列,并将其输入到分割和深度估计网络中。然而,独立处理这两种模态限制了PT检测模型的性能,因为这些表示具有互补的语义特征。为了解决这个限制,本文提出了PT-Fusion,一种基于多模态注意力融合的网络,它融合了PCA和TSR模态,用于PT设置中地下缺陷的缺陷分割和深度估计。PT-Fusion引入了新的特征融合模块,即编码器注意力融合门(EAFG)和注意力增强解码块(AEDB),以融合PCA和TSR特征,从而增强地下缺陷的分割和深度估计。此外,还提出了一种基于热成像序列随机数据采样的新型数据增强技术,以缓解PT数据集的稀缺性。在Université Laval IRT-PVC数据集上,将该方法与最先进的PT检测模型(包括U-Net、注意力U-Net和3D-CNN)进行了基准测试。结果表明,PT-Fusion在缺陷分割和深度估计精度方面优于上述模型,提升幅度为10%。

🔬 方法详解

问题定义:论文旨在解决脉冲热成像(PT)中地下缺陷的精确分割和深度估计问题。现有方法通常独立处理通过主成分分析(PCA)和热成像信号重建(TSR)获得的两种模态的数据,忽略了它们之间的互补信息,导致检测精度受限。此外,PT数据集的稀缺性也限制了模型的训练和泛化能力。

核心思路:论文的核心思路是利用多模态注意力机制,将PCA和TSR两种模态的特征进行有效融合,从而充分利用它们之间的互补信息,提升缺陷分割和深度估计的精度。同时,通过数据增强技术缓解数据集稀缺的问题。

技术框架:PT-Fusion网络整体架构基于编码器-解码器结构。编码器部分分别提取PCA和TSR模态的特征。然后,通过提出的编码器注意力融合门(EAFG)模块,将两种模态的特征进行融合。解码器部分使用注意力增强解码块(AEDB),逐步恢复空间分辨率,并最终输出缺陷分割结果和深度估计值。此外,论文还提出了一种基于热成像序列随机数据采样的数据增强方法。

关键创新:论文的关键创新在于提出了EAFG和AEDB两个模块,用于实现PCA和TSR特征的有效融合。EAFG模块通过注意力机制,自适应地学习两种模态特征的权重,从而实现更有效的融合。AEDB模块则在解码过程中引入注意力机制,增强对缺陷区域的关注。此外,提出的数据增强方法也缓解了PT数据集稀缺的问题。

关键设计:EAFG模块的具体实现细节未知,但可以推测其利用注意力机制学习PCA和TSR特征的权重,并进行加权融合。AEDB模块可能在解码器的每个阶段都引入了注意力机制,以增强对缺陷区域的关注。损失函数方面,论文未明确说明,但推测可能使用了分割任务常用的交叉熵损失和深度估计任务常用的L1或L2损失。数据增强方面,通过随机采样热成像序列中的帧,生成新的训练样本。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PT-Fusion在Université Laval IRT-PVC数据集上,相比于U-Net、注意力U-Net和3D-CNN等基线模型,在缺陷分割和深度估计精度上取得了显著提升,提升幅度达到10%。这表明PT-Fusion能够更有效地融合PCA和TSR两种模态的信息,从而提高缺陷检测的性能。

🎯 应用场景

该研究成果可应用于航空航天、汽车制造、能源等领域的无损检测,例如检测复合材料、金属部件中的裂纹、空洞等缺陷。通过提高缺陷检测的精度和效率,有助于保障产品质量,降低安全风险,并减少维护成本。未来,该技术有望集成到自动化检测系统中,实现智能化、高效化的缺陷检测。

📄 摘要(原文)

AI-driven pulse thermography (PT) has become a crucial tool in non-destructive testing (NDT), enabling automatic detection of hidden anomalies in various industrial components. Current state-of-the-art techniques feed segmentation and depth estimation networks compressed PT sequences using either Principal Component Analysis (PCA) or Thermographic Signal Reconstruction (TSR). However, treating these two modalities independently constrains the performance of PT inspection models as these representations possess complementary semantic features. To address this limitation, this work proposes PT-Fusion, a multi-modal attention-based fusion network that fuses both PCA and TSR modalities for defect segmentation and depth estimation of subsurface defects in PT setups. PT-Fusion introduces novel feature fusion modules, Encoder Attention Fusion Gate (EAFG) and Attention Enhanced Decoding Block (AEDB), to fuse PCA and TSR features for enhanced segmentation and depth estimation of subsurface defects. In addition, a novel data augmentation technique is proposed based on random data sampling from thermographic sequences to alleviate the scarcity of PT datasets. The proposed method is benchmarked against state-of-the-art PT inspection models, including U-Net, attention U-Net, and 3D-CNN on the Université Laval IRT-PVC dataset. The results demonstrate that PT-Fusion outperforms the aforementioned models in defect segmentation and depth estimation accuracies with a margin of 10%.