Lightweight Multimodal Adaptation of Vision Language Models for Species Recognition and Habitat Context Interpretation in Drone Thermal Imagery
作者: Hao Chen, Fang Qiu, Fangchao Dong, Defei Yang, Eve Bohnett, Li An
分类: cs.CV, cs.AI
发布日期: 2026-04-07
💡 一句话要点
提出轻量级多模态适配框架,用于无人机热成像物种识别与栖息地环境解读。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 视觉语言模型 热成像 物种识别 栖息地监测 无人机 领域自适应
📋 核心要点
- 现有VLM主要基于RGB图像训练,难以直接应用于热红外图像,限制了其在生态监测领域的应用。
- 提出一种轻量级多模态适配框架,通过投影器对齐RGB和热红外图像的特征空间,实现知识迁移。
- 实验表明,该方法能有效提升VLM在热成像物种识别和栖息地环境解读方面的性能,尤其是在开放集提示下。
📝 摘要(中文)
本研究提出了一种轻量级多模态适配框架,旨在弥合RGB预训练的视觉语言模型(VLM)与热红外图像之间的表征差距。通过无人机采集的图像构建了一个热成像数据集,并利用多模态投影器对齐对VLM进行微调,从而将基于RGB的视觉表征信息迁移到热辐射输入中。研究对InternVL3-8B-Instruct、Qwen2.5-VL-7B-Instruct和Qwen3-VL-8B-Instruct三个代表性模型在封闭集和开放集提示条件下进行了物种识别和实例计数基准测试。结果表明,采用开放集提示的Qwen3-VL-8B-Instruct模型表现最佳,在鹿、犀牛和大象的识别上分别取得了0.935、0.915和0.968的F1分数,实例计数误差在1以内的准确率分别为0.779、0.982和1.000。此外,结合热成像和同步采集的RGB图像,该模型能够生成栖息地环境信息,包括土地覆盖特征、关键景观特征和可见的人为干扰。总而言之,研究结果表明,基于轻量级投影器的适配为将RGB预训练的VLM迁移到热成像无人机图像提供了一条有效且实用的途径,从而将VLM的应用从目标级识别扩展到生态监测中的栖息地环境解读。
🔬 方法详解
问题定义:论文旨在解决视觉语言模型(VLM)在热红外图像上的应用问题,特别是物种识别和栖息地环境解读。现有的VLM主要在RGB图像上进行预训练,直接应用于热红外图像时,由于模态差异导致性能显著下降。因此,如何有效地将RGB图像上的知识迁移到热红外图像上,是本研究要解决的核心问题。
核心思路:论文的核心思路是通过轻量级的多模态适配,弥合RGB图像和热红外图像之间的表征差距。具体来说,通过学习一个投影器,将热红外图像的特征映射到与RGB图像特征相似的空间中,从而使得预训练的VLM能够更好地理解和处理热红外图像。这种方法避免了对整个VLM进行大规模的微调,降低了计算成本和数据需求。
技术框架:整体框架包括以下几个主要步骤:1) 数据采集:使用无人机同时采集RGB图像和热红外图像。2) 数据预处理:对图像进行必要的预处理,例如裁剪、缩放等。3) 特征提取:使用预训练的VLM提取RGB图像的特征,并使用一个独立的网络(例如ResNet)提取热红外图像的特征。4) 投影器学习:学习一个投影器,将热红外图像的特征映射到与RGB图像特征相似的空间中。5) VLM微调:使用少量热红外图像数据对VLM进行微调,以进一步提升性能。
关键创新:论文的关键创新在于提出了轻量级的多模态适配方法,通过投影器对齐RGB和热红外图像的特征空间,实现了知识迁移。与直接对整个VLM进行微调相比,该方法计算成本更低,数据需求更少,更易于部署和应用。此外,论文还探索了开放集提示在热成像物种识别中的应用,并取得了良好的效果。
关键设计:投影器的具体结构可以是一个简单的线性层或一个多层感知机(MLP)。损失函数可以使用对比损失或交叉熵损失,以鼓励热红外图像的特征与对应的RGB图像特征尽可能接近。在VLM微调阶段,可以使用少量热红外图像数据,并采用较低的学习率,以避免过度拟合。
📊 实验亮点
实验结果表明,采用开放集提示的Qwen3-VL-8B-Instruct模型在物种识别方面表现最佳,在鹿、犀牛和大象的识别上分别取得了0.935、0.915和0.968的F1分数,实例计数误差在1以内的准确率分别为0.779、0.982和1.000。这些结果表明,该方法能够有效地将RGB预训练的VLM迁移到热成像无人机图像,并取得良好的性能。
🎯 应用场景
该研究成果可广泛应用于生态监测、野生动物保护、环境评估等领域。通过无人机热成像技术,可以实现对动物种群数量的快速统计、栖息地环境的实时监测,以及人为干扰的有效识别。该技术有助于提高生态监测的效率和精度,为制定科学合理的保护措施提供数据支持,并为未来的智慧生态系统建设奠定基础。
📄 摘要(原文)
This study proposes a lightweight multimodal adaptation framework to bridge the representation gap between RGB-pretrained VLMs and thermal infrared imagery, and demonstrates its practical utility using a real drone-collected dataset. A thermal dataset was developed from drone-collected imagery and was used to fine-tune VLMs through multimodal projector alignment, enabling the transfer of information from RGB-based visual representations to thermal radiometric inputs. Three representative models, including InternVL3-8B-Instruct, Qwen2.5-VL-7B-Instruct, and Qwen3-VL-8B-Instruct, were benchmarked under both closed-set and open-set prompting conditions for species recognition and instance enumeration. Among the tested models, Qwen3-VL-8B-Instruct with open-set prompting achieved the best overall performance, with F1 scores of 0.935 for deer, 0.915 for rhino, and 0.968 for elephant, and within-1 enumeration accuracies of 0.779, 0.982, and 1.000, respectively. In addition, combining thermal imagery with simultaneously collected RGB imagery enabled the model to generate habitat-context information, including land-cover characteristics, key landscape features, and visible human disturbance. Overall, the findings demonstrate that lightweight projector-based adaptation provides an effective and practical route for transferring RGB-pretrained VLMs to thermal drone imagery, expanding their utility from object-level recognition to habitat-context interpretation in ecological monitoring.