Cross-View Open-Vocabulary Object Detection in Aerial Imagery

作者: Jyoti Kini, Rohit Gupta, Mubarak Shah

分类: cs.CV

发布日期: 2025-10-04

💡 一句话要点

提出跨视角开放词汇目标检测框架，解决航拍图像目标识别难题

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 开放词汇目标检测 航拍图像 领域自适应 对比学习 多实例学习 零样本学习 图像-文本对齐

📋 核心要点

传统目标检测模型泛化性差，难以识别未训练类别，限制了其在航拍图像等复杂场景的应用。
论文提出一种跨视角开放词汇目标检测框架，通过领域对齐将地面图像知识迁移到航拍图像。
实验表明，该方法在多个航拍数据集上显著提升了零样本目标检测性能，优于微调的封闭词汇模型。

📝 摘要（中文）

传统目标检测模型通常在固定的类别集合上训练，限制了其灵活性，并且增加新类别的成本很高。开放词汇目标检测通过识别未见过的类别来解决此限制，而无需显式训练。利用在大量可用的地面图像-文本分类对上进行对比训练的预训练模型，为航拍图像中的开放词汇目标检测提供了坚实的基础。然而，领域转移、视角变化和极端尺度差异使得跨领域的直接知识迁移无效，需要专门的适应策略。本文提出了一种新颖的框架，通过结构化的领域对齐来调整来自地面图像的开放词汇表示，以解决航拍图像中的目标检测问题。该方法引入了对比图像到图像的对齐，以增强航拍和地面嵌入之间的相似性，并采用多实例词汇关联来对齐航拍图像和文本嵌入。在xView、DOTAv2、VisDrone、DIOR和HRRSD数据集上的大量实验验证了该方法的有效性。与微调的封闭词汇数据集特定模型性能相比，我们的开放词汇模型在零样本设置下，在DOTAv2上实现了+6.32 mAP，在VisDrone（图像）上实现了+4.16 mAP，在HRRSD上实现了+3.46 mAP的改进，从而为航拍应用中更灵活和可扩展的目标检测系统铺平了道路。

🔬 方法详解

问题定义：论文旨在解决航拍图像中开放词汇目标检测问题。现有目标检测模型通常需要在特定数据集上进行训练，无法识别未见过的类别，泛化能力差。直接将地面图像上训练的模型应用于航拍图像，会受到领域差异、视角变化和尺度差异的影响，导致性能下降。

核心思路：论文的核心思路是通过领域对齐，将从地面图像学习到的开放词汇表示迁移到航拍图像。具体来说，通过对比学习，拉近航拍图像和地面图像的特征表示，并利用多实例学习，将航拍图像与文本描述进行关联，从而实现开放词汇目标检测。

技术框架：该框架主要包含两个模块：图像-图像对齐模块和图像-文本对齐模块。图像-图像对齐模块通过对比学习，最小化航拍图像和地面图像的特征距离，从而减小领域差异。图像-文本对齐模块利用多实例学习，将航拍图像中的目标与文本描述进行关联，从而实现开放词汇目标检测。整体流程是先进行图像-图像对齐，再进行图像-文本对齐，最后进行目标检测。

关键创新：论文的关键创新在于提出了结构化的领域对齐方法，包括对比图像-图像对齐和多实例词汇关联。对比图像-图像对齐能够有效地减小航拍图像和地面图像之间的领域差异，多实例词汇关联能够将航拍图像中的目标与文本描述进行关联，从而实现开放词汇目标检测。与现有方法相比，该方法能够更好地利用地面图像的知识，提高航拍图像中开放词汇目标检测的性能。

关键设计：在对比图像-图像对齐中，使用了InfoNCE损失函数来最大化正样本对的相似度，最小化负样本对的相似度。在多实例词汇关联中，使用了最大池化操作来选择最相关的文本描述。网络结构使用了ResNet-50作为图像编码器，Transformer作为文本编码器。实验中，使用了Adam优化器，学习率为0.0001，batch size为32。

📊 实验亮点

该论文在多个航拍数据集上进行了实验，包括xView、DOTAv2、VisDrone、DIOR和HRRSD。实验结果表明，该方法在零样本设置下，与微调的封闭词汇数据集特定模型相比，在DOTAv2上实现了+6.32 mAP，在VisDrone（图像）上实现了+4.16 mAP，在HRRSD上实现了+3.46 mAP的改进。这些结果表明，该方法能够有效地提高航拍图像中开放词汇目标检测的性能。

🎯 应用场景

该研究成果可应用于智慧城市、环境监测、灾害救援等领域。例如，可以利用无人机航拍图像自动识别建筑物、车辆、植被等目标，为城市规划和管理提供数据支持。在灾害发生后，可以利用航拍图像快速评估灾情，为救援工作提供决策依据。该技术具有广阔的应用前景和重要的实际价值。

📄 摘要（原文）

Traditional object detection models are typically trained on a fixed set of classes, limiting their flexibility and making it costly to incorporate new categories. Open-vocabulary object detection addresses this limitation by enabling models to identify unseen classes without explicit training. Leveraging pretrained models contrastively trained on abundantly available ground-view image-text classification pairs provides a strong foundation for open-vocabulary object detection in aerial imagery. Domain shifts, viewpoint variations, and extreme scale differences make direct knowledge transfer across domains ineffective, requiring specialized adaptation strategies. In this paper, we propose a novel framework for adapting open-vocabulary representations from ground-view images to solve object detection in aerial imagery through structured domain alignment. The method introduces contrastive image-to-image alignment to enhance the similarity between aerial and ground-view embeddings and employs multi-instance vocabulary associations to align aerial images with text embeddings. Extensive experiments on the xView, DOTAv2, VisDrone, DIOR, and HRRSD datasets are used to validate our approach. Our open-vocabulary model achieves improvements of +6.32 mAP on DOTAv2, +4.16 mAP on VisDrone (Images), and +3.46 mAP on HRRSD in the zero-shot setting when compared to finetuned closed-vocabulary dataset-specific model performance, thus paving the way for more flexible and scalable object detection systems in aerial applications.

Cross-View Open-Vocabulary Object Detection in Aerial Imagery

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册