RTGen: Generating Region-Text Pairs for Open-Vocabulary Object Detection

作者: Fangyi Chen, Han Zhang, Zhantao Yang, Hao Chen, Kai Hu, Marios Savvides

分类: cs.CV

发布日期: 2024-05-30

备注: Technical report

💡 一句话要点

RTGen：生成区域-文本对，提升开放词汇目标检测性能

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 开放词汇目标检测 区域-文本对生成 图像修复 图像描述生成 对比学习 场景感知 定位感知

📋 核心要点

开放词汇目标检测依赖大量区域-文本对，但人工标注成本高昂，限制了数据规模。
RTGen通过图像修复和多提示图像描述生成，自动创建大规模区域-文本对。
实验表明，RTGen生成的数据能有效提升开放词汇目标检测性能，超越现有方法。

📝 摘要（中文）

开放词汇目标检测(OVD)需要对区域-语义关系进行可靠建模，这可以通过大量的区域-文本对学习得到。然而，由于显著的标注成本，这种数据在实践中受到限制。本文提出了RTGen，用于生成可扩展的开放词汇区域-文本对，并证明了其提升开放词汇目标检测性能的能力。RTGen包括在可扩展的图像-标题数据上的文本到区域和区域到文本生成过程。文本到区域的生成由图像修复驱动，并由我们提出的场景感知修复引导器指导，以实现整体布局的和谐。对于区域到文本的生成，我们使用各种提示执行多个区域级图像标题生成，并根据CLIP相似性选择最佳匹配文本。为了促进区域-文本对上的检测训练，我们还引入了一种定位感知的区域-文本对比损失，该损失学习针对不同定位质量定制的目标提议。大量的实验表明，我们的RTGen可以作为开放词汇目标检测的可扩展、语义丰富且有效的来源，并在利用更多数据时继续提高模型性能，与现有的最先进方法相比，提供了卓越的性能。

🔬 方法详解

问题定义：开放词汇目标检测的关键在于学习区域和文本之间的语义关系。然而，获取大规模、高质量的区域-文本对标注数据成本高昂，成为制约开放词汇目标检测性能提升的瓶颈。现有方法通常依赖人工标注或有限的数据集，难以覆盖丰富的语义信息。

核心思路：RTGen的核心思路是利用图像修复和图像描述生成技术，自动生成大规模的区域-文本对。通过文本到区域的生成和区域到文本的生成，构建一个可扩展的、语义丰富的训练数据集，从而提升开放词汇目标检测模型的性能。这样避免了高昂的人工标注成本，并能够利用现有的图像-标题数据。

技术框架：RTGen包含两个主要模块：文本到区域生成和区域到文本生成。文本到区域生成模块首先使用场景感知修复引导器，根据文本描述在图像中生成对应的区域。然后，区域到文本生成模块使用多个提示词对生成的区域进行图像描述，并根据CLIP相似性选择最佳匹配的文本。最后，使用定位感知的区域-文本对比损失进行训练，优化目标检测模型。

关键创新：RTGen的关键创新在于：1) 提出了场景感知修复引导器，确保生成的区域与图像整体布局和谐；2) 使用多提示图像描述生成，提高区域-文本对的质量；3) 引入了定位感知的区域-文本对比损失，使模型能够学习到与定位质量相关的目标提议。

关键设计：在文本到区域生成中，场景感知修复引导器利用图像的上下文信息，指导图像修复过程，避免生成不自然的区域。在区域到文本生成中，使用多个不同的提示词，例如“a photo of a [object]”、“a close-up of a [object]”，以生成更全面、更准确的描述。定位感知的区域-文本对比损失通过调整损失权重，使模型更加关注高质量的区域提议。

🖼️ 关键图片

📊 实验亮点

实验结果表明，RTGen能够显著提升开放词汇目标检测的性能。例如，在使用更多数据的情况下，RTGen能够持续提高模型性能，超越现有的最先进方法。具体的性能提升数据在论文中进行了详细的展示和对比。

🎯 应用场景

RTGen生成的区域-文本对可广泛应用于开放词汇目标检测、图像理解、视觉问答等领域。该方法降低了数据标注成本，促进了相关技术在自动驾驶、智能安防、机器人等领域的应用，并有望推动人工智能的进一步发展。

📄 摘要（原文）

Open-vocabulary object detection (OVD) requires solid modeling of the region-semantic relationship, which could be learned from massive region-text pairs. However, such data is limited in practice due to significant annotation costs. In this work, we propose RTGen to generate scalable open-vocabulary region-text pairs and demonstrate its capability to boost the performance of open-vocabulary object detection. RTGen includes both text-to-region and region-to-text generation processes on scalable image-caption data. The text-to-region generation is powered by image inpainting, directed by our proposed scene-aware inpainting guider for overall layout harmony. For region-to-text generation, we perform multiple region-level image captioning with various prompts and select the best matching text according to CLIP similarity. To facilitate detection training on region-text pairs, we also introduce a localization-aware region-text contrastive loss that learns object proposals tailored with different localization qualities. Extensive experiments demonstrate that our RTGen can serve as a scalable, semantically rich, and effective source for open-vocabulary object detection and continue to improve the model performance when more data is utilized, delivering superior performance compared to the existing state-of-the-art methods.

RTGen: Generating Region-Text Pairs for Open-Vocabulary Object Detection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理