Thermal-Det: Language-Guided Cross-Modal Distillation for Open-Vocabulary Thermal Object Detection

作者: Yasiru Ranasinghe, Elim Schenck, Florence Yellin, Shuowen Hu, Christopher Funk, Vishal M. Patel

分类: cs.CV

发布日期: 2026-05-11

备注: Accepted at CVPR 26

💡 一句话要点

提出Thermal-Det：首个基于大语言模型监督的开放词汇热成像目标检测框架

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 开放词汇检测 热成像 跨模态蒸馏 大语言模型 多模态融合 伪标签学习

📋 核心要点

现有开放词汇检测器依赖RGB纹理特征，在缺乏纹理、发射率多变的热成像场景中泛化能力严重受限。
提出Thermal-Det框架，通过大规模合成数据构建与跨模态蒸馏，将RGB语义知识迁移至热成像模态。
实验证明该方法在多个基准测试中实现了2-4%的AP提升，有效解决了热成像领域标注稀缺的难题。

📝 摘要（中文）

现有的开放词汇检测器主要针对RGB图像，难以泛化至热成像领域，因为热图像缺乏纹理且发射率变化大，导致RGB语义难以迁移。本文提出了Thermal-Det，这是首个专为热成像设计的LLM监督开放词汇检测器。为支持大规模训练，我们通过将GroundingCap-1M转换为热成像域并过滤RGB特定术语，构建了包含百万级样本的合成数据集。Thermal-Det联合优化检测、描述生成及跨模态蒸馏目标。通过冻结的RGB教师模型为成对但无标签的RGB-热成像数据提供几何与语义伪监督，从而在无需人工标注的情况下迁移开放词汇知识。此外，模型引入了热-文本对齐头与模态融合交叉注意力模块。实验表明，该方法在公共基准测试中较现有检测器提升了2-4%的AP，为可扩展的语言驱动热成像感知奠定了基础。

🔬 方法详解

问题定义：论文旨在解决热成像领域缺乏大规模标注数据，且现有开放词汇检测器无法有效处理热成像低纹理、高噪声特征的问题，从而实现零样本或开放词汇下的热目标检测。

核心思路：利用大语言模型（LLM）的语义理解能力，通过跨模态蒸馏将成熟的RGB检测器知识迁移至热成像域。通过构建大规模合成热成像数据集，使模型在保持语言对齐的同时，内化热成像特有的对比度模式。

技术框架：整体架构包含三个核心部分：一是基于GroundingCap-1M转换的百万级合成训练集；二是利用冻结的RGB教师模型进行伪标签监督；三是包含热-文本对齐头（Thermal-Text Alignment Head）和模态融合交叉注意力模块（Modality-Fused Cross-Attention）的检测器主体。

关键创新：首次将LLM监督引入热成像检测；提出了一种无需人工标注的跨模态蒸馏策略，通过RGB教师模型提供几何与语义伪监督，实现了模态间的知识迁移，而非简单的域适应。

关键设计：模型联合优化检测损失、描述生成损失与蒸馏损失。热-文本对齐头用于校准文本特征，模态融合模块则负责在推理阶段处理双模态输入，确保模型能够学习到热成像特有的辐射特征与语义标签的映射关系。

🖼️ 关键图片

📊 实验亮点

实验结果显示，Thermal-Det在多个公开热成像基准测试中表现优异，相较于现有的开放词汇检测基线，其平均精度（AP）稳定提升了2-4%。该研究证明了通过大规模合成数据与跨模态蒸馏，可以有效克服热成像模态的语义鸿沟，为实现通用热成像感知提供了强有力的技术支撑。

🎯 应用场景

该研究在自动驾驶、安防监控、夜间搜救及工业检测等领域具有重要价值。在光照条件恶劣或完全黑暗的环境中，Thermal-Det能够利用语言指令实现对目标的灵活检测，无需针对特定类别进行重新训练，极大降低了热成像感知系统的部署成本与开发周期。

📄 摘要（原文）

Existing open-vocabulary detectors focus on RGB images and fail to generalize to thermal imagery, where low texture and emissivity variations challenge RGB-based semantics. We present Thermal-Det, the first large language model (LLM) supervised open-vocabulary detector tailored for thermal images. To enable large-scale training, we develop a synthetic dataset by converting GroundingCap-1M into the thermal domain and filtering captions to remove RGB-specific terms, yielding over one million thermally aligned samples with bounding boxes, grounding texts, and detailed captions. Thermal-Det jointly optimizes detection, captioning, and cross-modal distillation objectives. A frozen RGB teacher provides geometric and semantic pseudo-supervision for paired but unlabeled RGB-thermal data, transferring open-vocabulary knowledge without manual annotation. The model further employs a Thermal-Text Alignment Head for text calibration and a Modality-Fused Cross-Attention module for dual-modality reasoning. Unlike prior domain-adaptation methods, the detector is fully fine-tuned to internalize thermal contrast patterns while preserving language alignment. Experiments on public benchmarks show consistent 2-4% AP gains over existing open-vocabulary detectors, establishing a strong foundation for scalable, language-driven thermal perception.

Thermal-Det: Language-Guided Cross-Modal Distillation for Open-Vocabulary Thermal Object Detection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理