Vision-Language Models for Infrared Industrial Sensing in Additive Manufacturing Scene Description

作者: Nazanin Mahjourian, Vinh Nguyen

分类: cs.CV, cs.RO

发布日期: 2025-12-11

💡 一句话要点

VLM-IRIS：面向增材制造红外工业感知的视觉-语言模型零样本框架

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 红外图像处理 视觉-语言模型 零样本学习 增材制造 工业感知

📋 核心要点

传统视觉系统在低光照或封闭的制造环境中表现不佳，红外相机提供了互补优势，但缺乏大规模标注数据。
VLM-IRIS框架通过将红外图像预处理为RGB兼容格式，使现有的视觉-语言模型能够直接应用于红外数据，实现零样本学习。
实验表明，VLM-IRIS在3D打印机床上实现了高精度的工件存在检测，证明了其在热成像应用中的有效性。

📝 摘要（中文）

本文提出了一种名为VLM-IRIS（Vision-Language Models for InfraRed Industrial Sensing）的零样本框架，旨在将视觉-语言模型（VLMs）应用于红外数据。由于现有VLMs基于RGB数据训练，无法直接理解红外图像。VLM-IRIS通过预处理红外图像，将其转换为RGB兼容的输入，使其能够被基于CLIP的编码器处理。具体而言，使用FLIR Boson传感器捕获红外图像，并将其转换为magma表示。随后，采用centroid prompt ensembling和CLIP ViT-B/32编码器，实现了在3D打印机床上进行工件存在检测的零样本预测，无需任何模型再训练。实验结果表明，该方法能够有效扩展VLMs到热成像应用，实现无标签监控。

🔬 方法详解

问题定义：现有视觉-语言模型（VLMs）主要基于RGB图像进行训练，无法直接应用于红外图像。在增材制造等工业场景中，红外相机常用于低光照或封闭环境下的目标检测和监控，但缺乏大规模标注的红外图像数据集，限制了有监督学习方法的应用。因此，如何利用现有的VLMs实现红外图像的零样本学习是一个关键问题。

核心思路：VLM-IRIS的核心思路是将红外图像转换为VLMs能够理解的RGB兼容格式，从而利用VLMs强大的零样本学习能力。通过图像预处理，将红外图像的温度信息编码到RGB通道中，使得VLMs能够提取红外图像的特征。同时，采用centroid prompt ensembling技术，提高模型的鲁棒性和准确性。

技术框架：VLM-IRIS框架主要包含以下几个阶段：1) 红外图像采集：使用FLIR Boson传感器采集红外图像。2) 图像预处理：将红外图像转换为magma表示，即将温度值映射到RGB颜色空间。3) 特征提取：使用CLIP ViT-B/32编码器提取图像特征。4) 文本编码：使用CLIP的文本编码器对文本提示进行编码。5) 零样本预测：计算图像特征和文本特征之间的相似度，选择相似度最高的文本作为预测结果。centroid prompt ensembling用于提升预测的稳定性。

关键创新：VLM-IRIS的关键创新在于将红外图像转换为RGB兼容格式，从而使得现有的VLMs能够直接应用于红外图像的零样本学习。此外，centroid prompt ensembling技术进一步提高了模型的鲁棒性和准确性。该方法无需对VLMs进行任何再训练，即可实现红外图像的有效识别。

关键设计：红外图像到RGB的转换采用magma颜色映射，将温度值线性映射到RGB颜色空间。centroid prompt ensembling通过选择多个具有代表性的文本提示，并计算它们与图像特征的相似度，从而提高预测的准确性。CLIP ViT-B/32作为特征提取器，其预训练的知识能够有效提取图像的语义信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，VLM-IRIS在3D打印机床上实现了高精度的工件存在检测，无需任何模型再训练。通过将红外图像转换为magma表示，并结合centroid prompt ensembling和CLIP ViT-B/32编码器，该方法能够有效利用现有的视觉-语言模型进行红外图像的零样本学习，为红外图像处理提供了一种新的思路。

🎯 应用场景

VLM-IRIS可广泛应用于增材制造、工业自动化、安防监控等领域。例如，在3D打印过程中，可以利用VLM-IRIS实时监控工件是否存在、温度是否异常等，从而提高生产效率和产品质量。此外，在低光照或恶劣环境下，VLM-IRIS可以用于目标检测、人员识别等任务，具有重要的实际应用价值和未来发展潜力。

📄 摘要（原文）

Many manufacturing environments operate in low-light conditions or within enclosed machines where conventional vision systems struggle. Infrared cameras provide complementary advantages in such environments. Simultaneously, supervised AI systems require large labeled datasets, which makes zero-shot learning frameworks more practical for applications including infrared cameras. Recent advances in vision-language foundation models (VLMs) offer a new path in zero-shot predictions from paired image-text representations. However, current VLMs cannot understand infrared camera data since they are trained on RGB data. This work introduces VLM-IRIS (Vision-Language Models for InfraRed Industrial Sensing), a zero-shot framework that adapts VLMs to infrared data by preprocessing infrared images captured by a FLIR Boson sensor into RGB-compatible inputs suitable for CLIP-based encoders. We demonstrate zero-shot workpiece presence detection on a 3D printer bed where temperature differences between the build plate and workpieces make the task well-suited for thermal imaging. VLM-IRIS converts the infrared images to magma representation and applies centroid prompt ensembling with a CLIP ViT-B/32 encoder to achieve high accuracy on infrared images without any model retraining. These findings demonstrate that the proposed improvements to VLMs can be effectively extended to thermal applications for label-free monitoring.

Vision-Language Models for Infrared Industrial Sensing in Additive Manufacturing Scene Description

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理