Towards Cognitive Defect Analysis in Active Infrared Thermography with Vision-Text Cues
作者: Mohammed Salah, Eman Ouda, Giuseppe Dell'Avvocato, Fabrizio Sarasini, Ester D'Accardi, Jorge Dias, Davor Svetinovic, Stefano Sfarra, Yusra Abdulrahman
分类: cs.CV, cs.AI, eess.SP
发布日期: 2026-03-11
💡 一句话要点
提出基于视觉-语言模型的红外热成像认知缺陷分析框架,无需训练数据实现零样本缺陷检测。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 主动红外热成像 碳纤维增强聚合物 缺陷检测 视觉-语言模型 零样本学习
📋 核心要点
- 传统基于AI的AIRT缺陷检测方法依赖于大量标注数据,构建成本高昂且耗时。
- 该论文提出一种基于预训练视觉-语言模型的零样本学习框架,无需训练即可进行缺陷检测。
- 实验结果表明,提出的AIRT-VLM适配器显著提升了信噪比,并实现了较高的缺陷检测精度。
📝 摘要(中文)
本文提出了一种新颖的语言引导框架,用于碳纤维增强聚合物(CFRP)的主动红外热成像(AIRT)认知缺陷分析,该框架利用视觉-语言模型(VLM)。与传统的学习方法不同,该框架无需构建耗时且昂贵的CFRP检测序列数据集来训练神经网络,而是依赖于预训练的多模态VLM编码器和一个轻量级适配器,以实现生成式的零样本缺陷理解和定位。通过利用预训练的多模态编码器,该系统能够实现热成像模式的生成式零样本理解和自动缺陷检测。考虑到热成像数据与用于训练VLM的自然图像之间的领域差距,本文提出了一种AIRT-VLM适配器,以增强缺陷的可见性,同时使热成像领域与VLM的学习表征对齐。该框架使用GroundingDINO、Qwen-VL-Chat和CogVLM三个代表性的VLM进行了验证。验证在25个CFRP检测序列上进行,这些序列引入了不同能量水平的冲击,反映了工业场景中遇到的真实缺陷。实验结果表明,与传统的热成像降维方法相比,AIRT-VLM适配器实现了超过10 dB的信噪比(SNR)增益,同时实现了交并比(IoU)值达到70%的零样本缺陷检测。
🔬 方法详解
问题定义:现有的基于主动红外热成像(AIRT)的碳纤维增强聚合物(CFRP)缺陷检测方法,严重依赖于大量的标注数据进行模型训练。这些数据的采集和标注过程耗时且成本高昂,限制了AI技术在CFRP缺陷检测领域的应用。
核心思路:本文的核心思路是利用预训练的视觉-语言模型(VLM)强大的零样本学习能力,避免对特定缺陷检测任务进行大量的数据标注和模型训练。通过将热成像数据转换到VLM能够理解的表征空间,并结合轻量级的适配器,实现对CFRP缺陷的自动检测和定位。
技术框架:该框架主要包含两个核心模块:AIRT-VLM适配器和预训练的视觉-语言模型。首先,AIRT-VLM适配器负责将原始的热成像数据进行预处理,增强缺陷的可见性,并将数据转换到与VLM的输入空间对齐的表征。然后,将处理后的数据输入到预训练的VLM中,利用VLM的零样本学习能力,结合文本提示,实现对缺陷的检测和定位。整个流程无需对缺陷检测任务进行额外的训练。
关键创新:该论文最重要的创新点在于提出了AIRT-VLM适配器,解决了热成像数据与自然图像数据之间的领域差异问题。该适配器能够有效地增强热成像图像中缺陷的信号,并将其转换为VLM能够理解的表征,从而使得预训练的VLM能够直接应用于CFRP的缺陷检测任务,实现了零样本学习。
关键设计:AIRT-VLM适配器的具体设计细节未知,论文中没有详细描述其内部结构和参数设置。但可以推测,该适配器可能包含一些图像增强、特征提取和领域对齐的模块。此外,文本提示的设计也是一个关键因素,需要根据具体的缺陷类型和检测目标进行调整,以获得最佳的检测效果。
🖼️ 关键图片
📊 实验亮点
实验结果表明,提出的AIRT-VLM适配器能够显著提升热成像图像的信噪比(SNR),增益超过10dB。同时,该框架在零样本缺陷检测任务中取得了良好的性能,交并比(IoU)值达到了70%。验证了该方法在实际工业场景中的有效性,为基于AI的CFRP缺陷检测提供了一种新的解决方案。
🎯 应用场景
该研究成果可广泛应用于航空航天、汽车制造等领域,实现对CFRP结构件的快速、准确的无损检测。无需大量训练数据,降低了部署成本,加速了AI技术在工业检测领域的应用。未来可进一步扩展到其他材料和缺陷类型的检测,提升工业生产的智能化水平。
📄 摘要(原文)
Active infrared thermography (AIRT) is currently witnessing a surge of artificial intelligence (AI) methodologies being deployed for automated subsurface defect analysis of high performance carbon fiber-reinforced polymers (CFRP). Deploying AI-based AIRT methodologies for inspecting CFRPs requires the creation of time consuming and expensive datasets of CFRP inspection sequences to train neural networks. To address this challenge, this work introduces a novel language-guided framework for cognitive defect analysis in CFRPs using AIRT and vision-language models (VLMs). Unlike conventional learning-based approaches, the proposed framework does not require developing training datasets for extensive training of defect detectors, instead it relies solely on pretrained multimodal VLM encoders coupled with a lightweight adapter to enable generative zero-shot understanding and localization of subsurface defects. By leveraging pretrained multimodal encoders, the proposed system enables generative zero-shot understanding of thermographic patterns and automatic detection of subsurface defects. Given the domain gap between thermographic data and natural images used to train VLMs, an AIRT-VLM Adapter is proposed to enhance the visibility of defects while aligning the thermographic domain with the learned representations of VLMs. The proposed framework is validated using three representative VLMs; specifically, GroundingDINO, Qwen-VL-Chat, and CogVLM. Validation is performed on 25 CFRP inspection sequences with impacts introduced at different energy levels, reflecting realistic defects encountered in industrial scenarios. Experimental results demonstrate that the AIRT-VLM adapter achieves signal-to-noise ratio (SNR) gains exceeding 10 dB compared with conventional thermographic dimensionality-reduction methods, while enabling zero-shot defect detection with intersection-over-union values reaching 70%.