Thermo-VL: Extending Vision-Language Models to Thermal Infrared Perception

作者: Rusiru Thushara, Yasiru Ranasinghe, Jay Paranjape, Vishal M. Patel

分类: cs.CV

发布日期: 2026-05-21

备注: 18 pages, 11 figures

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

Thermo-VL：扩展视觉-语言模型至热红外感知，提升低照度场景理解能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 热红外感知 低照度场景 多模态融合 跨光谱推理 双注意力机制 指令调优

📋 核心要点

现有视觉-语言模型在低照度环境下性能受限，因为它们主要依赖RGB图像进行视觉学习，缺乏对热红外信息的有效利用。
Thermo-VL通过引入热红外编码器和文本引导的双注意力融合模块，将热红外信息融入到预训练的视觉-语言模型中，提升模型在低照度环境下的感知能力。
实验结果表明，Thermo-VL在热红外图像和RGB+热红外图像的推理任务上均取得了显著提升，验证了该方法在低照度场景下的有效性。

📝 摘要（中文）

视觉-语言模型(VLMs)在低照度环境下表现不佳，因为它们的视觉基础主要从RGB图像中学习而来。而热红外图像在可见光线索退化时，能保留互补的场景结构。我们提出了Thermo-VL，一个波长感知的VLM，它使用可训练的热编码器和一个文本引导的双注意力融合模块来增强一个冻结的Molmo-7B主干网络。给定对齐的RGB tokens、热tokens和prompt embeddings，融合模块基于语言和RGB上下文来调节热特征，然后将一个门控残差注入到冻结的RGB流中，以便在不破坏Molmo预训练的RGB-语言接口的情况下，整合热证据。我们使用标准的语言建模目标以及辅助对齐和正则化损失来训练模型，这些损失改进了跨模态基础并减少了对RGB的过度依赖。我们还引入了一个像素对齐的RGB-热红外指令调优数据集和Thermo-VL-Bench，一个手动筛选的RGB-热红外VQA基准，用于低光和跨光谱推理。实验表明，在具有挑战性的纯热红外和RGB+热红外推理任务上取得了显著的收益，突出了prompt条件下的多光谱融合的价值。我们的数据集和代码可在https://thusharakart.github.io/Thermo-VL公开获取。

🔬 方法详解

问题定义：现有的视觉-语言模型主要依赖RGB图像进行训练，在低照度或无光照环境下，RGB图像质量严重下降，导致模型性能大幅降低。因此，如何有效地利用热红外图像中蕴含的互补信息，提升视觉-语言模型在低照度环境下的感知能力是一个亟待解决的问题。

核心思路：Thermo-VL的核心思路是将热红外图像的信息融入到预训练的视觉-语言模型中。通过训练一个热红外编码器，将热红外图像转换为特征表示，并利用一个文本引导的双注意力融合模块，将热红外特征与RGB特征和文本信息进行融合。这样，模型就可以同时利用RGB图像和热红外图像的信息，从而提升在低照度环境下的感知能力。

技术框架：Thermo-VL的整体架构包括以下几个主要模块：1) 一个冻结的Molmo-7B主干网络，用于处理RGB图像和文本信息；2) 一个可训练的热红外编码器，用于将热红外图像转换为特征表示；3) 一个文本引导的双注意力融合模块，用于将热红外特征与RGB特征和文本信息进行融合；4) 一个门控残差连接，用于将融合后的特征注入到RGB流中。整个流程是：首先，RGB图像和热红外图像分别通过Molmo-7B和热红外编码器提取特征；然后，文本信息被编码为prompt embeddings；接着，双注意力融合模块将热红外特征与RGB特征和prompt embeddings进行融合；最后，融合后的特征通过门控残差连接注入到RGB流中，用于后续的语言建模任务。

关键创新：Thermo-VL的关键创新在于提出了一个文本引导的双注意力融合模块，该模块可以有效地将热红外特征与RGB特征和文本信息进行融合。与传统的特征融合方法不同，该模块利用文本信息作为指导，可以更好地控制热红外特征的融合方式，从而提升模型的性能。此外，使用门控残差连接，可以在不破坏Molmo预训练的RGB-语言接口的情况下，整合热证据。

关键设计：在训练过程中，除了标准的语言建模目标外，还使用了辅助对齐和正则化损失，以改进跨模态基础并减少对RGB的过度依赖。数据集方面，作者构建了一个像素对齐的RGB-热红外指令调优数据集和Thermo-VL-Bench，用于训练和评估模型。具体参数设置和网络结构细节在论文中进行了详细描述，包括注意力机制的具体实现方式、损失函数的选择以及网络层的配置等。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Thermo-VL在热红外图像和RGB+热红外图像的推理任务上均取得了显著提升。例如，在Thermo-VL-Bench基准测试中，Thermo-VL在低光照和跨光谱视觉问答任务上表现出强大的性能，超过了现有的视觉-语言模型。这些结果验证了Thermo-VL在低照度场景下的有效性，并证明了prompt条件下的多光谱融合的价值。

🎯 应用场景

Thermo-VL在低照度或恶劣天气条件下的目标检测、场景理解和安全监控等领域具有广泛的应用前景。例如，在自动驾驶领域，Thermo-VL可以帮助车辆在夜间或雾天等环境下更好地感知周围环境，提高驾驶安全性。在安防领域，Thermo-VL可以用于夜间监控，检测潜在的安全威胁。此外，该技术还可以应用于搜救行动，帮助救援人员在复杂环境下快速定位目标。

📄 摘要（原文）

Vision-language models (VLMs) often fail under low illumination because their visual grounding is learned predominantly from RGB imagery, whereas thermal infrared preserves complementary scene structure when visible cues degrade. We present Thermo-VL, a wavelength-aware VLM that augments a frozen Molmo-7B backbone with a trainable thermal encoder and a text-guided dual-attention fusion module. Given aligned RGB tokens, thermal tokens, and prompt embeddings, the fusion module conditions thermal features on both language and RGB context, then injects a gated residual into the frozen RGB stream so thermal evidence can be incorporated without disrupting Molmo's pretrained RGB-language interface. We train the model with the standard language-modeling objective together with auxiliary alignment and regularization losses that improve cross-modal grounding and reduce over-reliance on RGB. We also introduce a pixel-aligned RGB-thermal instruction-tuning dataset and Thermo-VL-Bench, a manually screened RGB-thermal VQA benchmark for low-light and cross-spectrum reasoning. Experiments show strong gains on challenging thermal-only and RGB+thermal reasoning tasks, highlighting the value of prompt-conditioned multispectral fusion. Our dataset and code are publicly available at: https://thusharakart.github.io/Thermo-VL

Thermo-VL: Extending Vision-Language Models to Thermal Infrared Perception

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理