Light-Weight Cross-Modal Enhancement Method with Benchmark Construction for UAV-based Open-Vocabulary Object Detection
作者: Zhenhai Weng, Xinjie Li, Can Wu, Weijie He, Jianfeng Lv, Dong Zhou, Zhongliang Yu
分类: cs.CV
发布日期: 2025-09-07 (更新: 2025-09-09)
💡 一句话要点
针对无人机开放词汇目标检测,提出轻量级跨模态增强方法与基准数据集。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 无人机 开放词汇目标检测 跨模态融合 视觉-语言 零样本学习
📋 核心要点
- 无人机图像的开放词汇目标检测面临着与地面数据集的领域差异,导致现有方法性能显著下降。
- 提出了一种轻量级的跨模态增强模块CAGE,通过跨注意力、自适应门控和全局FiLM调制实现文本-视觉的鲁棒对齐。
- 构建了大规模无人机数据集UAVDE-2M和UAVCAP-15K,并在VisDrone和SIMD数据集上验证了方法的有效性,显著提升了零样本检测性能。
📝 摘要(中文)
本文针对无人机图像开放词汇目标检测(OVD)中因领域差异导致的性能下降问题,提出了一套完整的解决方案,包括数据集构建和模型创新。首先,设计了一个优化的UAV-Label Engine,有效解决了标注冗余、不一致和模糊的问题,从而能够生成大规模无人机数据集。基于此,构建了两个新的基准数据集:UAVDE-2M,包含超过240万个实例,涵盖1800多个类别;UAVCAP-15K,提供丰富的图像-文本对,用于视觉-语言预训练。其次,引入了跨注意力门控增强(CAGE)模块,这是一种轻量级的双路融合设计,集成了跨注意力、自适应门控和全局FiLM调制,以实现鲁棒的文本-视觉对齐。通过将CAGE嵌入到YOLO-World-v2框架中,该方法在精度和效率方面都取得了显著提升,特别是在VisDrone上的零样本检测性能提高了+5.3 mAP,同时减少了参数和GFLOPs,并在SIMD上展示了强大的跨域泛化能力。大量的实验和实际无人机部署验证了所提出的解决方案在无人机OVD中的有效性和实用性。
🔬 方法详解
问题定义:无人机开放词汇目标检测(OVD)任务旨在检测无人机图像中未在训练集中出现过的物体类别。现有方法在地面数据集上训练,直接应用于无人机图像时,由于视角、光照、分辨率等差异,导致严重的领域泛化问题,零样本检测性能大幅下降。此外,缺乏高质量的无人机图像数据集也限制了相关研究的进展。
核心思路:论文的核心思路是弥合地面数据集与无人机图像之间的领域差异,并提升文本-视觉特征的对齐能力。通过构建大规模、高质量的无人机数据集,为模型提供更贴近实际场景的训练数据。同时,设计轻量级的跨模态增强模块,增强模型对文本描述和视觉信息的理解和融合,从而提升零样本检测性能。
技术框架:整体框架基于YOLO-World-v2,这是一个高效的开放词汇目标检测器。论文主要在其基础上进行了两个方面的改进:一是构建了UAVDE-2M和UAVCAP-15K两个数据集,用于模型的训练和评估;二是引入了CAGE模块,替换了YOLO-World-v2中的部分特征融合模块。CAGE模块包含跨注意力机制、自适应门控机制和全局FiLM调制三个子模块。
关键创新:论文的关键创新在于CAGE模块的设计,它是一种轻量级的双路融合结构,能够有效地融合文本和视觉特征。与传统的特征融合方法相比,CAGE模块通过跨注意力机制学习文本和视觉特征之间的关联性,并通过自适应门控机制动态地调整不同特征的权重,从而实现更鲁棒的特征融合。全局FiLM调制则进一步增强了特征的表达能力。
关键设计:CAGE模块的具体实现细节包括:跨注意力机制采用多头注意力,自适应门控机制使用sigmoid函数生成权重,全局FiLM调制使用线性层生成调制参数。损失函数方面,除了YOLO-World-v2原有的损失函数外,还可以加入对比学习损失,进一步提升文本-视觉特征的对齐效果。数据集构建方面,UAV-Label Engine的设计考虑了标注冗余、不一致和模糊等问题,通过人工审核和数据清洗保证了数据集的质量。
🖼️ 关键图片
📊 实验亮点
实验结果表明,所提出的方法在VisDrone数据集上实现了显著的性能提升,零样本检测mAP提高了+5.3,同时减少了参数量和GFLOPs。在SIMD数据集上的跨域泛化实验也验证了该方法的有效性。此外,在UAVDE-2M和UAVCAP-15K数据集上的实验结果也表明,该方法能够有效地利用大规模无人机数据进行训练,提升模型的性能。
🎯 应用场景
该研究成果可广泛应用于无人机巡检、智能安防、灾害救援等领域。通过开放词汇目标检测,无人机可以识别各种预定义或未知的物体,实现更智能化的环境感知和决策。例如,在电力巡检中,无人机可以自动检测电线、杆塔等设备,并识别出潜在的安全隐患。在灾害救援中,无人机可以快速搜索受困人员,并识别出危险区域。
📄 摘要(原文)
Open-Vocabulary Object Detection (OVD) faces severe performance degradation when applied to UAV imagery due to the domain gap from ground-level datasets. To address this challenge, we propose a complete UAV-oriented solution that combines both dataset construction and model innovation. First, we design a refined UAV-Label Engine, which efficiently resolves annotation redundancy, inconsistency, and ambiguity, enabling the generation of largescale UAV datasets. Based on this engine, we construct two new benchmarks: UAVDE-2M, with over 2.4M instances across 1,800+ categories, and UAVCAP-15K, providing rich image-text pairs for vision-language pretraining. Second, we introduce the Cross-Attention Gated Enhancement (CAGE) module, a lightweight dual-path fusion design that integrates cross-attention, adaptive gating, and global FiLM modulation for robust textvision alignment. By embedding CAGE into the YOLO-World-v2 framework, our method achieves significant gains in both accuracy and efficiency, notably improving zero-shot detection on VisDrone by +5.3 mAP while reducing parameters and GFLOPs, and demonstrating strong cross-domain generalization on SIMD. Extensive experiments and real-world UAV deployment confirm the effectiveness and practicality of our proposed solution for UAV-based OVD