VK-Det: Visual Knowledge Guided Prototype Learning for Open-Vocabulary Aerial Object Detection
作者: Jianhang Yao, Yongbin Zheng, Siqi Lu, Wanying Xu, Peng Sun
分类: cs.CV
发布日期: 2025-11-22
备注: 15 pages, 8 figures, accepted by AAAI 2026
💡 一句话要点
VK-Det:视觉知识引导的原型学习用于开放词汇空中目标检测
🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)
关键词: 开放词汇目标检测 视觉知识引导 原型学习 伪标签 空中目标检测
📋 核心要点
- 现有开放词汇目标检测方法依赖文本监督,易产生语义偏差,限制了对文本未指定概念的泛化能力。
- VK-Det框架利用视觉编码器固有的区域感知能力进行细粒度定位和自适应蒸馏,无需额外文本监督。
- 提出的原型感知伪标签策略通过特征聚类和原型匹配,增强对新目标的关注,并在DIOR和DOTA数据集上取得了SOTA性能。
📝 摘要(中文)
为了识别超出预定义类别的目标,开放词汇空中目标检测(OVAD)利用视觉-语言模型(VLM)的零样本能力,从基础类别推广到新类别。现有方法通常采用自学习机制和弱文本监督来生成区域级伪标签,以使检测器与VLM语义空间对齐。然而,文本依赖性会引入语义偏差,限制开放词汇扩展到文本指定的概念。我们提出了VK-Det,一个无需额外监督的视觉知识引导的开放词汇目标检测框架。首先,我们发现并利用视觉编码器固有的信息区域感知能力,以获得细粒度的定位和自适应蒸馏。其次,我们引入了一种新的原型感知伪标签策略。它通过特征聚类对类间决策边界进行建模,并通过原型匹配将检测区域映射到潜在类别。这增强了对新目标的关注,同时弥补了缺失的监督。大量实验表明,该方法具有最先进的性能,在DIOR上达到30.1 mAP^N,在DOTA上达到23.3 mAP^N,甚至优于额外的监督方法。
🔬 方法详解
问题定义:开放词汇空中目标检测旨在检测预定义类别之外的新类别目标。现有方法依赖于文本监督,通过生成伪标签来对齐检测器和视觉-语言模型的语义空间。然而,这种文本依赖性引入了语义偏差,限制了模型对未在文本中明确指定的概念的泛化能力。因此,如何减少对文本监督的依赖,提高模型对未知目标的检测能力是关键问题。
核心思路:VK-Det的核心思路是利用视觉编码器自身的能力来发现和利用图像中的信息区域,从而减少对文本监督的依赖。通过视觉知识引导,模型能够更好地理解图像内容,并生成更准确的伪标签。此外,原型学习用于建模类间决策边界,从而更好地识别新类别目标。
技术框架:VK-Det框架主要包含以下几个模块:1) 视觉编码器:用于提取图像特征,并利用其固有的区域感知能力进行细粒度定位。2) 自适应蒸馏模块:利用视觉编码器的区域感知能力,对检测器进行自适应蒸馏,提高检测器的性能。3) 原型感知伪标签模块:通过特征聚类和原型匹配,生成伪标签,用于训练检测器。整体流程是先利用视觉编码器提取特征,然后进行自适应蒸馏,最后利用原型感知伪标签进行训练。
关键创新:VK-Det的关键创新在于:1) 利用视觉编码器固有的区域感知能力,减少对文本监督的依赖。2) 提出了一种新的原型感知伪标签策略,通过特征聚类和原型匹配,增强对新目标的关注。3) 提出了自适应蒸馏模块,利用视觉编码器的区域感知能力,提高检测器的性能。与现有方法相比,VK-Det无需额外的文本监督,能够更好地泛化到新类别目标。
关键设计:在原型感知伪标签模块中,使用K-means算法进行特征聚类,生成原型。原型数量的选择是一个关键参数,需要根据数据集的特点进行调整。损失函数包括分类损失和定位损失,用于训练检测器。自适应蒸馏模块中,使用KL散度作为蒸馏损失,用于将视觉编码器的知识迁移到检测器。
📊 实验亮点
VK-Det在DIOR数据集上取得了30.1 mAP^N,在DOTA数据集上取得了23.3 mAP^N,超越了现有的SOTA方法,甚至优于使用额外监督的方法。这表明VK-Det能够有效地利用视觉知识进行开放词汇目标检测,具有很强的泛化能力。
🎯 应用场景
该研究成果可应用于遥感图像分析、智能交通、城市规划、灾害监测等领域。例如,在灾害监测中,可以利用该方法快速检测出受灾区域的新增建筑物或受损情况,为救援工作提供支持。在智能交通中,可以检测出新的交通标志或道路障碍物,提高交通安全。
📄 摘要(原文)
To identify objects beyond predefined categories, open-vocabulary aerial object detection (OVAD) leverages the zero-shot capabilities of visual-language models (VLMs) to generalize from base to novel categories. Existing approaches typically utilize self-learning mechanisms with weak text supervision to generate region-level pseudo-labels to align detectors with VLMs semantic spaces. However, text dependence induces semantic bias, restricting open-vocabulary expansion to text-specified concepts. We propose $\textbf{VK-Det}$, a $\textbf{V}$isual $\textbf{K}$nowledge-guided open-vocabulary object $\textbf{Det}$ection framework $\textit{without}$ extra supervision. First, we discover and leverage vision encoder's inherent informative region perception to attain fine-grained localization and adaptive distillation. Second, we introduce a novel prototype-aware pseudo-labeling strategy. It models inter-class decision boundaries through feature clustering and maps detection regions to latent categories via prototype matching. This enhances attention to novel objects while compensating for missing supervision. Extensive experiments show state-of-the-art performance, achieving 30.1 $\mathrm{mAP}^{N}$ on DIOR and 23.3 $\mathrm{mAP}^{N}$ on DOTA, outperforming even extra supervised methods.