Light-Weight Cross-Modal Enhancement Method with Benchmark Construction for UAV-based Open-Vocabulary Object Detection

作者: Zhenhai Weng, Xinjie Li, Can Wu, Weijie He, Jianfeng Lv, Dong Zhou, Zhongliang Yu

分类: cs.CV

发布日期: 2025-09-07 (更新: 2025-09-09)

💡 一句话要点

针对无人机开放词汇目标检测，提出轻量级跨模态增强方法与基准数据集。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 无人机 开放词汇目标检测 跨模态融合 视觉-语言 零样本学习

📋 核心要点

无人机图像的开放词汇目标检测面临着与地面数据集的领域差异，导致现有方法性能显著下降。
提出了一种轻量级的跨模态增强模块CAGE，通过跨注意力、自适应门控和全局FiLM调制实现文本-视觉的鲁棒对齐。
构建了大规模无人机数据集UAVDE-2M和UAVCAP-15K，并在VisDrone和SIMD数据集上验证了方法的有效性，显著提升了零样本检测性能。

📝 摘要（中文）

本文针对无人机图像开放词汇目标检测（OVD）中因领域差异导致的性能下降问题，提出了一套完整的解决方案，包括数据集构建和模型创新。首先，设计了一个优化的UAV-Label Engine，有效解决了标注冗余、不一致和模糊的问题，从而能够生成大规模无人机数据集。基于此，构建了两个新的基准数据集：UAVDE-2M，包含超过240万个实例，涵盖1800多个类别；UAVCAP-15K，提供丰富的图像-文本对，用于视觉-语言预训练。其次，引入了跨注意力门控增强（CAGE）模块，这是一种轻量级的双路融合设计，集成了跨注意力、自适应门控和全局FiLM调制，以实现鲁棒的文本-视觉对齐。通过将CAGE嵌入到YOLO-World-v2框架中，该方法在精度和效率方面都取得了显著提升，特别是在VisDrone上的零样本检测性能提高了+5.3 mAP，同时减少了参数和GFLOPs，并在SIMD上展示了强大的跨域泛化能力。大量的实验和实际无人机部署验证了所提出的解决方案在无人机OVD中的有效性和实用性。

🔬 方法详解

问题定义：无人机开放词汇目标检测（OVD）任务旨在检测无人机图像中未在训练集中出现过的物体类别。现有方法在地面数据集上训练，直接应用于无人机图像时，由于视角、光照、分辨率等差异，导致严重的领域泛化问题，零样本检测性能大幅下降。此外，缺乏高质量的无人机图像数据集也限制了相关研究的进展。

核心思路：论文的核心思路是弥合地面数据集与无人机图像之间的领域差异，并提升文本-视觉特征的对齐能力。通过构建大规模、高质量的无人机数据集，为模型提供更贴近实际场景的训练数据。同时，设计轻量级的跨模态增强模块，增强模型对文本描述和视觉信息的理解和融合，从而提升零样本检测性能。

技术框架：整体框架基于YOLO-World-v2，这是一个高效的开放词汇目标检测器。论文主要在其基础上进行了两个方面的改进：一是构建了UAVDE-2M和UAVCAP-15K两个数据集，用于模型的训练和评估；二是引入了CAGE模块，替换了YOLO-World-v2中的部分特征融合模块。CAGE模块包含跨注意力机制、自适应门控机制和全局FiLM调制三个子模块。

关键创新：论文的关键创新在于CAGE模块的设计，它是一种轻量级的双路融合结构，能够有效地融合文本和视觉特征。与传统的特征融合方法相比，CAGE模块通过跨注意力机制学习文本和视觉特征之间的关联性，并通过自适应门控机制动态地调整不同特征的权重，从而实现更鲁棒的特征融合。全局FiLM调制则进一步增强了特征的表达能力。

关键设计：CAGE模块的具体实现细节包括：跨注意力机制采用多头注意力，自适应门控机制使用sigmoid函数生成权重，全局FiLM调制使用线性层生成调制参数。损失函数方面，除了YOLO-World-v2原有的损失函数外，还可以加入对比学习损失，进一步提升文本-视觉特征的对齐效果。数据集构建方面，UAV-Label Engine的设计考虑了标注冗余、不一致和模糊等问题，通过人工审核和数据清洗保证了数据集的质量。

🖼️ 关键图片

📊 实验亮点

实验结果表明，所提出的方法在VisDrone数据集上实现了显著的性能提升，零样本检测mAP提高了+5.3，同时减少了参数量和GFLOPs。在SIMD数据集上的跨域泛化实验也验证了该方法的有效性。此外，在UAVDE-2M和UAVCAP-15K数据集上的实验结果也表明，该方法能够有效地利用大规模无人机数据进行训练，提升模型的性能。

🎯 应用场景

该研究成果可广泛应用于无人机巡检、智能安防、灾害救援等领域。通过开放词汇目标检测，无人机可以识别各种预定义或未知的物体，实现更智能化的环境感知和决策。例如，在电力巡检中，无人机可以自动检测电线、杆塔等设备，并识别出潜在的安全隐患。在灾害救援中，无人机可以快速搜索受困人员，并识别出危险区域。

📄 摘要（原文）

Open-Vocabulary Object Detection (OVD) faces severe performance degradation when applied to UAV imagery due to the domain gap from ground-level datasets. To address this challenge, we propose a complete UAV-oriented solution that combines both dataset construction and model innovation. First, we design a refined UAV-Label Engine, which efficiently resolves annotation redundancy, inconsistency, and ambiguity, enabling the generation of largescale UAV datasets. Based on this engine, we construct two new benchmarks: UAVDE-2M, with over 2.4M instances across 1,800+ categories, and UAVCAP-15K, providing rich image-text pairs for vision-language pretraining. Second, we introduce the Cross-Attention Gated Enhancement (CAGE) module, a lightweight dual-path fusion design that integrates cross-attention, adaptive gating, and global FiLM modulation for robust textvision alignment. By embedding CAGE into the YOLO-World-v2 framework, our method achieves significant gains in both accuracy and efficiency, notably improving zero-shot detection on VisDrone by +5.3 mAP while reducing parameters and GFLOPs, and demonstrating strong cross-domain generalization on SIMD. Extensive experiments and real-world UAV deployment confirm the effectiveness and practicality of our proposed solution for UAV-based OVD

Light-Weight Cross-Modal Enhancement Method with Benchmark Construction for UAV-based Open-Vocabulary Object Detection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理