Search and Detect: Training-Free Long Tail Object Detection via Web-Image Retrieval

📄 arXiv: 2409.18733v1 📥 PDF

作者: Mankeerat Sidhu, Hetarth Chopra, Ansel Blume, Jeonghwan Kim, Revanth Gangi Reddy, Heng Ji

分类: cs.CV

发布日期: 2024-09-26


💡 一句话要点

提出SearchDet,通过Web图像检索实现免训练的长尾目标检测

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 长尾目标检测 免训练学习 Web图像检索 开放词汇检测 视觉语言模型

📋 核心要点

  1. 现有开放词汇目标检测在长尾分布下性能显著下降,缺乏对罕见类别的有效识别能力。
  2. SearchDet通过Web图像检索获取目标概念的示例图像,无需训练即可实现长尾目标检测。
  3. 实验表明,SearchDet在ODinW和LVIS数据集上大幅超越现有SOTA模型,展现了强大的性能。

📝 摘要(中文)

本文提出了一种名为SearchDet的免训练长尾目标检测框架,该框架显著提升了开放词汇目标检测的性能。SearchDet检索目标的正负样本Web图像集,嵌入这些图像,并计算输入图像加权查询,用于检测图像中所需的概念。该方法简单且无需训练,但在ODinW数据集上实现了超过48.7%的mAP提升,在LVIS数据集上实现了超过59.1%的mAP提升,优于GroundingDINO等最先进的模型。此外,我们还表明,基于Web检索的示例图像进行目标检测的方法对于示例图像的变化具有鲁棒性,这为消除昂贵的数据标注和训练过程提供了一条途径。

🔬 方法详解

问题定义:长尾目标检测旨在识别数据集中出现频率较低的类别。现有方法通常依赖于大量标注数据进行训练,但在长尾分布下,罕见类别的标注数据不足,导致模型性能下降。此外,开放词汇目标检测需要模型具备识别未见过的类别的能力,这进一步加剧了长尾问题带来的挑战。

核心思路:SearchDet的核心思路是利用Web图像检索,为每个目标概念获取大量的正负样本图像,并将这些图像作为先验知识来指导目标检测。通过将输入图像与检索到的示例图像进行比较,模型可以更好地理解目标概念,从而提高检测性能,尤其是在长尾类别上。这种方法避免了对大量标注数据的依赖,实现了免训练的目标检测。

技术框架:SearchDet的整体框架包括以下几个主要阶段:1) Web图像检索:根据目标概念的文本描述,从Web上检索相关的正负样本图像。2) 图像嵌入:使用预训练的视觉模型(如CLIP)将检索到的图像和输入图像嵌入到同一特征空间。3) 查询生成:根据检索到的图像嵌入,计算输入图像的加权查询向量。权重可以基于图像与输入图像的相似度或其他指标。4) 目标检测:使用生成的查询向量在输入图像中检测目标概念。可以使用现有的目标检测模型,如GroundingDINO,但将其中的文本编码器替换为图像嵌入和查询生成模块。

关键创新:SearchDet的关键创新在于利用Web图像检索作为外部知识来源,从而实现免训练的长尾目标检测。与传统的依赖标注数据的方法不同,SearchDet通过检索大量的示例图像来增强模型对目标概念的理解,从而提高了在长尾类别上的检测性能。此外,该方法还具有很强的泛化能力,可以应用于开放词汇目标检测。

关键设计:关键设计包括:1) 检索策略:如何有效地从Web上检索到高质量的正负样本图像。2) 图像嵌入模型:选择合适的图像嵌入模型,以确保检索到的图像和输入图像能够被映射到同一特征空间。3) 查询生成方法:如何根据检索到的图像嵌入,生成能够有效表示目标概念的查询向量。例如,可以使用加权平均或注意力机制来融合不同的图像嵌入。4) 负样本选择:如何选择合适的负样本,以避免模型将背景误判为目标。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SearchDet在ODinW数据集上实现了超过48.7%的mAP提升,在LVIS数据集上实现了超过59.1%的mAP提升,显著优于GroundingDINO等现有SOTA模型。实验还表明,SearchDet对于Web检索到的示例图像的变化具有鲁棒性,这进一步验证了该方法的有效性和可靠性。

🎯 应用场景

SearchDet在许多领域具有广泛的应用前景,例如智能监控、自动驾驶、机器人导航、图像搜索等。它可以用于检测罕见或未知的物体,提高系统的鲁棒性和泛化能力。此外,SearchDet的免训练特性使其能够快速部署到新的场景中,降低了开发成本。

📄 摘要(原文)

In this paper, we introduce SearchDet, a training-free long-tail object detection framework that significantly enhances open-vocabulary object detection performance. SearchDet retrieves a set of positive and negative images of an object to ground, embeds these images, and computes an input image-weighted query which is used to detect the desired concept in the image. Our proposed method is simple and training-free, yet achieves over 48.7% mAP improvement on ODinW and 59.1% mAP improvement on LVIS compared to state-of-the-art models such as GroundingDINO. We further show that our approach of basing object detection on a set of Web-retrieved exemplars is stable with respect to variations in the exemplars, suggesting a path towards eliminating costly data annotation and training procedures.