Comprehensive Multi-Modal Prototypes are Simple and Effective Classifiers for Vast-Vocabulary Object Detection

📄 arXiv: 2412.17800v1 📥 PDF

作者: Yitong Chen, Wenhao Yao, Lingchen Meng, Sihong Wu, Zuxuan Wu, Yu-Gang Jiang

分类: cs.CV

发布日期: 2024-12-23

备注: Code is available at https://github.com/Row11n/Prova/tree/main


💡 一句话要点

Prova:一种用于大规模词汇目标检测的简单有效的多模态原型分类器

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 目标检测 开放词汇 多模态学习 原型学习 视觉-语言模型

📋 核心要点

  1. 现有开放世界目标检测器在训练类别有限的情况下,依赖视觉-语言模型的泛化能力来识别更广泛的词汇,但当训练词汇量扩展到实际规模时,性能显著下降。
  2. Prova的核心思想是提取全面的多模态原型,并将其作为对齐分类器的初始化,从而有效应对大规模词汇目标检测中的识别失败问题。
  3. 实验结果表明,Prova在V3Det数据集上显著提升了多种目标检测器的性能,并在开放词汇设置下取得了新的state-of-the-art结果。

📝 摘要(中文)

本文提出了一种名为Prova的多模态原型分类器,用于解决大规模词汇目标检测中的识别性能下降问题。该方法通过提取全面的多模态原型作为对齐分类器的初始化,从而提升模型在海量词汇场景下的识别能力。在V3Det数据集上的实验表明,Prova显著提升了单阶段、两阶段以及基于DETR的目标检测器的性能,无论是在有监督还是开放词汇设置下。具体而言,在V3Det的有监督设置下,Prova分别将Faster R-CNN、FCOS和DINO的AP提升了3.3、6.2和2.9。在开放词汇设置下,Prova取得了新的state-of-the-art性能,基础AP达到32.8,新类别AP达到11.0,相比之前的方法分别提升了2.6和4.3。

🔬 方法详解

问题定义:现有开放世界目标检测器在面对大规模词汇时,由于分类器与粗糙的类别名称对齐,导致识别性能显著下降。痛点在于如何有效地利用视觉-语言模型的知识,提升模型在海量类别下的识别能力,尤其是在开放词汇场景下。

核心思路:Prova的核心思路是利用多模态信息构建更具代表性的类别原型,并将其作为分类器的初始化。通过综合利用视觉和语言信息,可以获得更全面、更准确的类别表示,从而提升分类器的泛化能力和识别性能。

技术框架:Prova主要包含以下几个模块:1) 特征提取模块:利用预训练的视觉-语言模型(如CLIP)提取图像区域的视觉特征和类别名称的文本特征。2) 多模态原型构建模块:将视觉特征和文本特征进行融合,构建综合性的多模态类别原型。3) 对齐分类器:使用构建的多模态原型初始化分类器,将图像区域的视觉特征映射到类别空间。4) 目标检测器:将Prova集成到现有的目标检测框架中,用于提升目标检测器的分类性能。

关键创新:Prova的关键创新在于提出了综合性的多模态原型,并将其用于初始化分类器。与以往方法仅使用类别名称或简单的文本描述作为分类器不同,Prova充分利用了视觉和语言信息,构建了更具代表性的类别原型,从而提升了分类器的泛化能力。

关键设计:Prova的关键设计包括:1) 使用预训练的CLIP模型提取视觉和文本特征,保证特征的质量和泛化能力。2) 设计了有效的多模态融合策略,将视觉和文本特征进行融合,构建综合性的类别原型。3) 使用构建的多模态原型初始化分类器,加速分类器的收敛,并提升分类器的性能。具体参数设置和损失函数细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Prova在V3Det数据集上取得了显著的性能提升。在有监督设置下,Prova分别将Faster R-CNN、FCOS和DINO的AP提升了3.3、6.2和2.9。在开放词汇设置下,Prova取得了新的state-of-the-art性能,基础AP达到32.8,新类别AP达到11.0,相比之前的方法分别提升了2.6和4.3。这些结果表明,Prova是一种简单有效的提升大规模词汇目标检测性能的方法。

🎯 应用场景

Prova具有广泛的应用前景,可应用于智能安防、自动驾驶、图像搜索等领域。通过提升目标检测器在海量类别下的识别能力,可以实现更智能、更高效的视觉感知系统。未来,该方法有望应用于更复杂的场景,例如细粒度目标识别、零样本目标检测等。

📄 摘要(原文)

Enabling models to recognize vast open-world categories has been a longstanding pursuit in object detection. By leveraging the generalization capabilities of vision-language models, current open-world detectors can recognize a broader range of vocabularies, despite being trained on limited categories. However, when the scale of the category vocabularies during training expands to a real-world level, previous classifiers aligned with coarse class names significantly reduce the recognition performance of these detectors. In this paper, we introduce Prova, a multi-modal prototype classifier for vast-vocabulary object detection. Prova extracts comprehensive multi-modal prototypes as initialization of alignment classifiers to tackle the vast-vocabulary object recognition failure problem. On V3Det, this simple method greatly enhances the performance among one-stage, two-stage, and DETR-based detectors with only additional projection layers in both supervised and open-vocabulary settings. In particular, Prova improves Faster R-CNN, FCOS, and DINO by 3.3, 6.2, and 2.9 AP respectively in the supervised setting of V3Det. For the open-vocabulary setting, Prova achieves a new state-of-the-art performance with 32.8 base AP and 11.0 novel AP, which is of 2.6 and 4.3 gain over the previous methods.