Thermal-Det: Language-Guided Cross-Modal Distillation for Open-Vocabulary Thermal Object Detection
作者: Yasiru Ranasinghe, Elim Schenck, Florence Yellin, Shuowen Hu, Christopher Funk, Vishal M. Patel
分类: cs.CV
发布日期: 2026-05-11
备注: Accepted at CVPR 26
💡 一句话要点
提出Thermal-Det:首个基于大语言模型监督的开放词汇热成像目标检测框架
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 开放词汇检测 热成像 跨模态蒸馏 大语言模型 多模态融合 伪标签学习
📋 核心要点
- 现有开放词汇检测器依赖RGB纹理特征,在缺乏纹理、发射率多变的热成像场景中泛化能力严重受限。
- 提出Thermal-Det框架,通过大规模合成数据构建与跨模态蒸馏,将RGB语义知识迁移至热成像模态。
- 实验证明该方法在多个基准测试中实现了2-4%的AP提升,有效解决了热成像领域标注稀缺的难题。
📝 摘要(中文)
现有的开放词汇检测器主要针对RGB图像,难以泛化至热成像领域,因为热图像缺乏纹理且发射率变化大,导致RGB语义难以迁移。本文提出了Thermal-Det,这是首个专为热成像设计的LLM监督开放词汇检测器。为支持大规模训练,我们通过将GroundingCap-1M转换为热成像域并过滤RGB特定术语,构建了包含百万级样本的合成数据集。Thermal-Det联合优化检测、描述生成及跨模态蒸馏目标。通过冻结的RGB教师模型为成对但无标签的RGB-热成像数据提供几何与语义伪监督,从而在无需人工标注的情况下迁移开放词汇知识。此外,模型引入了热-文本对齐头与模态融合交叉注意力模块。实验表明,该方法在公共基准测试中较现有检测器提升了2-4%的AP,为可扩展的语言驱动热成像感知奠定了基础。
🔬 方法详解
问题定义:论文旨在解决热成像领域缺乏大规模标注数据,且现有开放词汇检测器无法有效处理热成像低纹理、高噪声特征的问题,从而实现零样本或开放词汇下的热目标检测。
核心思路:利用大语言模型(LLM)的语义理解能力,通过跨模态蒸馏将成熟的RGB检测器知识迁移至热成像域。通过构建大规模合成热成像数据集,使模型在保持语言对齐的同时,内化热成像特有的对比度模式。
技术框架:整体架构包含三个核心部分:一是基于GroundingCap-1M转换的百万级合成训练集;二是利用冻结的RGB教师模型进行伪标签监督;三是包含热-文本对齐头(Thermal-Text Alignment Head)和模态融合交叉注意力模块(Modality-Fused Cross-Attention)的检测器主体。
关键创新:首次将LLM监督引入热成像检测;提出了一种无需人工标注的跨模态蒸馏策略,通过RGB教师模型提供几何与语义伪监督,实现了模态间的知识迁移,而非简单的域适应。
关键设计:模型联合优化检测损失、描述生成损失与蒸馏损失。热-文本对齐头用于校准文本特征,模态融合模块则负责在推理阶段处理双模态输入,确保模型能够学习到热成像特有的辐射特征与语义标签的映射关系。
🖼️ 关键图片
📊 实验亮点
实验结果显示,Thermal-Det在多个公开热成像基准测试中表现优异,相较于现有的开放词汇检测基线,其平均精度(AP)稳定提升了2-4%。该研究证明了通过大规模合成数据与跨模态蒸馏,可以有效克服热成像模态的语义鸿沟,为实现通用热成像感知提供了强有力的技术支撑。
🎯 应用场景
该研究在自动驾驶、安防监控、夜间搜救及工业检测等领域具有重要价值。在光照条件恶劣或完全黑暗的环境中,Thermal-Det能够利用语言指令实现对目标的灵活检测,无需针对特定类别进行重新训练,极大降低了热成像感知系统的部署成本与开发周期。
📄 摘要(原文)
Existing open-vocabulary detectors focus on RGB images and fail to generalize to thermal imagery, where low texture and emissivity variations challenge RGB-based semantics. We present Thermal-Det, the first large language model (LLM) supervised open-vocabulary detector tailored for thermal images. To enable large-scale training, we develop a synthetic dataset by converting GroundingCap-1M into the thermal domain and filtering captions to remove RGB-specific terms, yielding over one million thermally aligned samples with bounding boxes, grounding texts, and detailed captions. Thermal-Det jointly optimizes detection, captioning, and cross-modal distillation objectives. A frozen RGB teacher provides geometric and semantic pseudo-supervision for paired but unlabeled RGB-thermal data, transferring open-vocabulary knowledge without manual annotation. The model further employs a Thermal-Text Alignment Head for text calibration and a Modality-Fused Cross-Attention module for dual-modality reasoning. Unlike prior domain-adaptation methods, the detector is fully fine-tuned to internalize thermal contrast patterns while preserving language alignment. Experiments on public benchmarks show consistent 2-4% AP gains over existing open-vocabulary detectors, establishing a strong foundation for scalable, language-driven thermal perception.