Comprehensive Multi-Modal Prototypes are Simple and Effective Classifiers for Vast-Vocabulary Object Detection

作者: Yitong Chen, Wenhao Yao, Lingchen Meng, Sihong Wu, Zuxuan Wu, Yu-Gang Jiang

分类: cs.CV

发布日期: 2024-12-23

备注: Code is available at https://github.com/Row11n/Prova/tree/main

💡 一句话要点

Prova：一种用于大规模词汇目标检测的简单有效的多模态原型分类器

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 目标检测 开放词汇 多模态学习 原型学习 视觉-语言模型

📋 核心要点

现有开放世界目标检测器在训练类别有限的情况下，依赖视觉-语言模型的泛化能力来识别更广泛的词汇，但当训练词汇量扩展到实际规模时，性能显著下降。
Prova的核心思想是提取全面的多模态原型，并将其作为对齐分类器的初始化，从而有效应对大规模词汇目标检测中的识别失败问题。
实验结果表明，Prova在V3Det数据集上显著提升了多种目标检测器的性能，并在开放词汇设置下取得了新的state-of-the-art结果。

📝 摘要（中文）

本文提出了一种名为Prova的多模态原型分类器，用于解决大规模词汇目标检测中的识别性能下降问题。该方法通过提取全面的多模态原型作为对齐分类器的初始化，从而提升模型在海量词汇场景下的识别能力。在V3Det数据集上的实验表明，Prova显著提升了单阶段、两阶段以及基于DETR的目标检测器的性能，无论是在有监督还是开放词汇设置下。具体而言，在V3Det的有监督设置下，Prova分别将Faster R-CNN、FCOS和DINO的AP提升了3.3、6.2和2.9。在开放词汇设置下，Prova取得了新的state-of-the-art性能，基础AP达到32.8，新类别AP达到11.0，相比之前的方法分别提升了2.6和4.3。

🔬 方法详解

问题定义：现有开放世界目标检测器在面对大规模词汇时，由于分类器与粗糙的类别名称对齐，导致识别性能显著下降。痛点在于如何有效地利用视觉-语言模型的知识，提升模型在海量类别下的识别能力，尤其是在开放词汇场景下。

核心思路：Prova的核心思路是利用多模态信息构建更具代表性的类别原型，并将其作为分类器的初始化。通过综合利用视觉和语言信息，可以获得更全面、更准确的类别表示，从而提升分类器的泛化能力和识别性能。

技术框架：Prova主要包含以下几个模块：1) 特征提取模块：利用预训练的视觉-语言模型（如CLIP）提取图像区域的视觉特征和类别名称的文本特征。2) 多模态原型构建模块：将视觉特征和文本特征进行融合，构建综合性的多模态类别原型。3) 对齐分类器：使用构建的多模态原型初始化分类器，将图像区域的视觉特征映射到类别空间。4) 目标检测器：将Prova集成到现有的目标检测框架中，用于提升目标检测器的分类性能。

关键创新：Prova的关键创新在于提出了综合性的多模态原型，并将其用于初始化分类器。与以往方法仅使用类别名称或简单的文本描述作为分类器不同，Prova充分利用了视觉和语言信息，构建了更具代表性的类别原型，从而提升了分类器的泛化能力。

关键设计：Prova的关键设计包括：1) 使用预训练的CLIP模型提取视觉和文本特征，保证特征的质量和泛化能力。2) 设计了有效的多模态融合策略，将视觉和文本特征进行融合，构建综合性的类别原型。3) 使用构建的多模态原型初始化分类器，加速分类器的收敛，并提升分类器的性能。具体参数设置和损失函数细节在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

Prova在V3Det数据集上取得了显著的性能提升。在有监督设置下，Prova分别将Faster R-CNN、FCOS和DINO的AP提升了3.3、6.2和2.9。在开放词汇设置下，Prova取得了新的state-of-the-art性能，基础AP达到32.8，新类别AP达到11.0，相比之前的方法分别提升了2.6和4.3。这些结果表明，Prova是一种简单有效的提升大规模词汇目标检测性能的方法。

🎯 应用场景

Prova具有广泛的应用前景，可应用于智能安防、自动驾驶、图像搜索等领域。通过提升目标检测器在海量类别下的识别能力，可以实现更智能、更高效的视觉感知系统。未来，该方法有望应用于更复杂的场景，例如细粒度目标识别、零样本目标检测等。

📄 摘要（原文）

Enabling models to recognize vast open-world categories has been a longstanding pursuit in object detection. By leveraging the generalization capabilities of vision-language models, current open-world detectors can recognize a broader range of vocabularies, despite being trained on limited categories. However, when the scale of the category vocabularies during training expands to a real-world level, previous classifiers aligned with coarse class names significantly reduce the recognition performance of these detectors. In this paper, we introduce Prova, a multi-modal prototype classifier for vast-vocabulary object detection. Prova extracts comprehensive multi-modal prototypes as initialization of alignment classifiers to tackle the vast-vocabulary object recognition failure problem. On V3Det, this simple method greatly enhances the performance among one-stage, two-stage, and DETR-based detectors with only additional projection layers in both supervised and open-vocabulary settings. In particular, Prova improves Faster R-CNN, FCOS, and DINO by 3.3, 6.2, and 2.9 AP respectively in the supervised setting of V3Det. For the open-vocabulary setting, Prova achieves a new state-of-the-art performance with 32.8 base AP and 11.0 novel AP, which is of 2.6 and 4.3 gain over the previous methods.

Comprehensive Multi-Modal Prototypes are Simple and Effective Classifiers for Vast-Vocabulary Object Detection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理