Towards Cognitive Defect Analysis in Active Infrared Thermography with Vision-Text Cues

作者: Mohammed Salah, Eman Ouda, Giuseppe Dell'Avvocato, Fabrizio Sarasini, Ester D'Accardi, Jorge Dias, Davor Svetinovic, Stefano Sfarra, Yusra Abdulrahman

分类: cs.CV, cs.AI, eess.SP

发布日期: 2026-03-11

💡 一句话要点

提出基于视觉-语言模型的红外热成像认知缺陷分析框架，无需训练数据实现零样本缺陷检测。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 主动红外热成像 碳纤维增强聚合物 缺陷检测 视觉-语言模型 零样本学习

📋 核心要点

传统基于AI的AIRT缺陷检测方法依赖于大量标注数据，构建成本高昂且耗时。
该论文提出一种基于预训练视觉-语言模型的零样本学习框架，无需训练即可进行缺陷检测。
实验结果表明，提出的AIRT-VLM适配器显著提升了信噪比，并实现了较高的缺陷检测精度。

📝 摘要（中文）

本文提出了一种新颖的语言引导框架，用于碳纤维增强聚合物（CFRP）的主动红外热成像（AIRT）认知缺陷分析，该框架利用视觉-语言模型（VLM）。与传统的学习方法不同，该框架无需构建耗时且昂贵的CFRP检测序列数据集来训练神经网络，而是依赖于预训练的多模态VLM编码器和一个轻量级适配器，以实现生成式的零样本缺陷理解和定位。通过利用预训练的多模态编码器，该系统能够实现热成像模式的生成式零样本理解和自动缺陷检测。考虑到热成像数据与用于训练VLM的自然图像之间的领域差距，本文提出了一种AIRT-VLM适配器，以增强缺陷的可见性，同时使热成像领域与VLM的学习表征对齐。该框架使用GroundingDINO、Qwen-VL-Chat和CogVLM三个代表性的VLM进行了验证。验证在25个CFRP检测序列上进行，这些序列引入了不同能量水平的冲击，反映了工业场景中遇到的真实缺陷。实验结果表明，与传统的热成像降维方法相比，AIRT-VLM适配器实现了超过10 dB的信噪比（SNR）增益，同时实现了交并比（IoU）值达到70%的零样本缺陷检测。

🔬 方法详解

问题定义：现有的基于主动红外热成像（AIRT）的碳纤维增强聚合物（CFRP）缺陷检测方法，严重依赖于大量的标注数据进行模型训练。这些数据的采集和标注过程耗时且成本高昂，限制了AI技术在CFRP缺陷检测领域的应用。

核心思路：本文的核心思路是利用预训练的视觉-语言模型（VLM）强大的零样本学习能力，避免对特定缺陷检测任务进行大量的数据标注和模型训练。通过将热成像数据转换到VLM能够理解的表征空间，并结合轻量级的适配器，实现对CFRP缺陷的自动检测和定位。

技术框架：该框架主要包含两个核心模块：AIRT-VLM适配器和预训练的视觉-语言模型。首先，AIRT-VLM适配器负责将原始的热成像数据进行预处理，增强缺陷的可见性，并将数据转换到与VLM的输入空间对齐的表征。然后，将处理后的数据输入到预训练的VLM中，利用VLM的零样本学习能力，结合文本提示，实现对缺陷的检测和定位。整个流程无需对缺陷检测任务进行额外的训练。

关键创新：该论文最重要的创新点在于提出了AIRT-VLM适配器，解决了热成像数据与自然图像数据之间的领域差异问题。该适配器能够有效地增强热成像图像中缺陷的信号，并将其转换为VLM能够理解的表征，从而使得预训练的VLM能够直接应用于CFRP的缺陷检测任务，实现了零样本学习。

关键设计：AIRT-VLM适配器的具体设计细节未知，论文中没有详细描述其内部结构和参数设置。但可以推测，该适配器可能包含一些图像增强、特征提取和领域对齐的模块。此外，文本提示的设计也是一个关键因素，需要根据具体的缺陷类型和检测目标进行调整，以获得最佳的检测效果。

🖼️ 关键图片

📊 实验亮点

实验结果表明，提出的AIRT-VLM适配器能够显著提升热成像图像的信噪比（SNR），增益超过10dB。同时，该框架在零样本缺陷检测任务中取得了良好的性能，交并比（IoU）值达到了70%。验证了该方法在实际工业场景中的有效性，为基于AI的CFRP缺陷检测提供了一种新的解决方案。

🎯 应用场景

该研究成果可广泛应用于航空航天、汽车制造等领域，实现对CFRP结构件的快速、准确的无损检测。无需大量训练数据，降低了部署成本，加速了AI技术在工业检测领域的应用。未来可进一步扩展到其他材料和缺陷类型的检测，提升工业生产的智能化水平。

📄 摘要（原文）

Active infrared thermography (AIRT) is currently witnessing a surge of artificial intelligence (AI) methodologies being deployed for automated subsurface defect analysis of high performance carbon fiber-reinforced polymers (CFRP). Deploying AI-based AIRT methodologies for inspecting CFRPs requires the creation of time consuming and expensive datasets of CFRP inspection sequences to train neural networks. To address this challenge, this work introduces a novel language-guided framework for cognitive defect analysis in CFRPs using AIRT and vision-language models (VLMs). Unlike conventional learning-based approaches, the proposed framework does not require developing training datasets for extensive training of defect detectors, instead it relies solely on pretrained multimodal VLM encoders coupled with a lightweight adapter to enable generative zero-shot understanding and localization of subsurface defects. By leveraging pretrained multimodal encoders, the proposed system enables generative zero-shot understanding of thermographic patterns and automatic detection of subsurface defects. Given the domain gap between thermographic data and natural images used to train VLMs, an AIRT-VLM Adapter is proposed to enhance the visibility of defects while aligning the thermographic domain with the learned representations of VLMs. The proposed framework is validated using three representative VLMs; specifically, GroundingDINO, Qwen-VL-Chat, and CogVLM. Validation is performed on 25 CFRP inspection sequences with impacts introduced at different energy levels, reflecting realistic defects encountered in industrial scenarios. Experimental results demonstrate that the AIRT-VLM adapter achieves signal-to-noise ratio (SNR) gains exceeding 10 dB compared with conventional thermographic dimensionality-reduction methods, while enabling zero-shot defect detection with intersection-over-union values reaching 70%.

Towards Cognitive Defect Analysis in Active Infrared Thermography with Vision-Text Cues

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理