Cross-View Open-Vocabulary Object Detection in Aerial Imagery
作者: Jyoti Kini, Rohit Gupta, Mubarak Shah
分类: cs.CV
发布日期: 2025-10-04
💡 一句话要点
提出跨视角开放词汇目标检测框架,解决航拍图像目标识别难题
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 开放词汇目标检测 航拍图像 领域自适应 对比学习 多实例学习 零样本学习 图像-文本对齐
📋 核心要点
- 传统目标检测模型泛化性差,难以识别未训练类别,限制了其在航拍图像等复杂场景的应用。
- 论文提出一种跨视角开放词汇目标检测框架,通过领域对齐将地面图像知识迁移到航拍图像。
- 实验表明,该方法在多个航拍数据集上显著提升了零样本目标检测性能,优于微调的封闭词汇模型。
📝 摘要(中文)
传统目标检测模型通常在固定的类别集合上训练,限制了其灵活性,并且增加新类别的成本很高。开放词汇目标检测通过识别未见过的类别来解决此限制,而无需显式训练。利用在大量可用的地面图像-文本分类对上进行对比训练的预训练模型,为航拍图像中的开放词汇目标检测提供了坚实的基础。然而,领域转移、视角变化和极端尺度差异使得跨领域的直接知识迁移无效,需要专门的适应策略。本文提出了一种新颖的框架,通过结构化的领域对齐来调整来自地面图像的开放词汇表示,以解决航拍图像中的目标检测问题。该方法引入了对比图像到图像的对齐,以增强航拍和地面嵌入之间的相似性,并采用多实例词汇关联来对齐航拍图像和文本嵌入。在xView、DOTAv2、VisDrone、DIOR和HRRSD数据集上的大量实验验证了该方法的有效性。与微调的封闭词汇数据集特定模型性能相比,我们的开放词汇模型在零样本设置下,在DOTAv2上实现了+6.32 mAP,在VisDrone(图像)上实现了+4.16 mAP,在HRRSD上实现了+3.46 mAP的改进,从而为航拍应用中更灵活和可扩展的目标检测系统铺平了道路。
🔬 方法详解
问题定义:论文旨在解决航拍图像中开放词汇目标检测问题。现有目标检测模型通常需要在特定数据集上进行训练,无法识别未见过的类别,泛化能力差。直接将地面图像上训练的模型应用于航拍图像,会受到领域差异、视角变化和尺度差异的影响,导致性能下降。
核心思路:论文的核心思路是通过领域对齐,将从地面图像学习到的开放词汇表示迁移到航拍图像。具体来说,通过对比学习,拉近航拍图像和地面图像的特征表示,并利用多实例学习,将航拍图像与文本描述进行关联,从而实现开放词汇目标检测。
技术框架:该框架主要包含两个模块:图像-图像对齐模块和图像-文本对齐模块。图像-图像对齐模块通过对比学习,最小化航拍图像和地面图像的特征距离,从而减小领域差异。图像-文本对齐模块利用多实例学习,将航拍图像中的目标与文本描述进行关联,从而实现开放词汇目标检测。整体流程是先进行图像-图像对齐,再进行图像-文本对齐,最后进行目标检测。
关键创新:论文的关键创新在于提出了结构化的领域对齐方法,包括对比图像-图像对齐和多实例词汇关联。对比图像-图像对齐能够有效地减小航拍图像和地面图像之间的领域差异,多实例词汇关联能够将航拍图像中的目标与文本描述进行关联,从而实现开放词汇目标检测。与现有方法相比,该方法能够更好地利用地面图像的知识,提高航拍图像中开放词汇目标检测的性能。
关键设计:在对比图像-图像对齐中,使用了InfoNCE损失函数来最大化正样本对的相似度,最小化负样本对的相似度。在多实例词汇关联中,使用了最大池化操作来选择最相关的文本描述。网络结构使用了ResNet-50作为图像编码器,Transformer作为文本编码器。实验中,使用了Adam优化器,学习率为0.0001,batch size为32。
📊 实验亮点
该论文在多个航拍数据集上进行了实验,包括xView、DOTAv2、VisDrone、DIOR和HRRSD。实验结果表明,该方法在零样本设置下,与微调的封闭词汇数据集特定模型相比,在DOTAv2上实现了+6.32 mAP,在VisDrone(图像)上实现了+4.16 mAP,在HRRSD上实现了+3.46 mAP的改进。这些结果表明,该方法能够有效地提高航拍图像中开放词汇目标检测的性能。
🎯 应用场景
该研究成果可应用于智慧城市、环境监测、灾害救援等领域。例如,可以利用无人机航拍图像自动识别建筑物、车辆、植被等目标,为城市规划和管理提供数据支持。在灾害发生后,可以利用航拍图像快速评估灾情,为救援工作提供决策依据。该技术具有广阔的应用前景和重要的实际价值。
📄 摘要(原文)
Traditional object detection models are typically trained on a fixed set of classes, limiting their flexibility and making it costly to incorporate new categories. Open-vocabulary object detection addresses this limitation by enabling models to identify unseen classes without explicit training. Leveraging pretrained models contrastively trained on abundantly available ground-view image-text classification pairs provides a strong foundation for open-vocabulary object detection in aerial imagery. Domain shifts, viewpoint variations, and extreme scale differences make direct knowledge transfer across domains ineffective, requiring specialized adaptation strategies. In this paper, we propose a novel framework for adapting open-vocabulary representations from ground-view images to solve object detection in aerial imagery through structured domain alignment. The method introduces contrastive image-to-image alignment to enhance the similarity between aerial and ground-view embeddings and employs multi-instance vocabulary associations to align aerial images with text embeddings. Extensive experiments on the xView, DOTAv2, VisDrone, DIOR, and HRRSD datasets are used to validate our approach. Our open-vocabulary model achieves improvements of +6.32 mAP on DOTAv2, +4.16 mAP on VisDrone (Images), and +3.46 mAP on HRRSD in the zero-shot setting when compared to finetuned closed-vocabulary dataset-specific model performance, thus paving the way for more flexible and scalable object detection systems in aerial applications.