RTGen: Generating Region-Text Pairs for Open-Vocabulary Object Detection
作者: Fangyi Chen, Han Zhang, Zhantao Yang, Hao Chen, Kai Hu, Marios Savvides
分类: cs.CV
发布日期: 2024-05-30
备注: Technical report
💡 一句话要点
RTGen:生成区域-文本对,提升开放词汇目标检测性能
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 开放词汇目标检测 区域-文本对生成 图像修复 图像描述生成 对比学习 场景感知 定位感知
📋 核心要点
- 开放词汇目标检测依赖大量区域-文本对,但人工标注成本高昂,限制了数据规模。
- RTGen通过图像修复和多提示图像描述生成,自动创建大规模区域-文本对。
- 实验表明,RTGen生成的数据能有效提升开放词汇目标检测性能,超越现有方法。
📝 摘要(中文)
开放词汇目标检测(OVD)需要对区域-语义关系进行可靠建模,这可以通过大量的区域-文本对学习得到。然而,由于显著的标注成本,这种数据在实践中受到限制。本文提出了RTGen,用于生成可扩展的开放词汇区域-文本对,并证明了其提升开放词汇目标检测性能的能力。RTGen包括在可扩展的图像-标题数据上的文本到区域和区域到文本生成过程。文本到区域的生成由图像修复驱动,并由我们提出的场景感知修复引导器指导,以实现整体布局的和谐。对于区域到文本的生成,我们使用各种提示执行多个区域级图像标题生成,并根据CLIP相似性选择最佳匹配文本。为了促进区域-文本对上的检测训练,我们还引入了一种定位感知的区域-文本对比损失,该损失学习针对不同定位质量定制的目标提议。大量的实验表明,我们的RTGen可以作为开放词汇目标检测的可扩展、语义丰富且有效的来源,并在利用更多数据时继续提高模型性能,与现有的最先进方法相比,提供了卓越的性能。
🔬 方法详解
问题定义:开放词汇目标检测的关键在于学习区域和文本之间的语义关系。然而,获取大规模、高质量的区域-文本对标注数据成本高昂,成为制约开放词汇目标检测性能提升的瓶颈。现有方法通常依赖人工标注或有限的数据集,难以覆盖丰富的语义信息。
核心思路:RTGen的核心思路是利用图像修复和图像描述生成技术,自动生成大规模的区域-文本对。通过文本到区域的生成和区域到文本的生成,构建一个可扩展的、语义丰富的训练数据集,从而提升开放词汇目标检测模型的性能。这样避免了高昂的人工标注成本,并能够利用现有的图像-标题数据。
技术框架:RTGen包含两个主要模块:文本到区域生成和区域到文本生成。文本到区域生成模块首先使用场景感知修复引导器,根据文本描述在图像中生成对应的区域。然后,区域到文本生成模块使用多个提示词对生成的区域进行图像描述,并根据CLIP相似性选择最佳匹配的文本。最后,使用定位感知的区域-文本对比损失进行训练,优化目标检测模型。
关键创新:RTGen的关键创新在于:1) 提出了场景感知修复引导器,确保生成的区域与图像整体布局和谐;2) 使用多提示图像描述生成,提高区域-文本对的质量;3) 引入了定位感知的区域-文本对比损失,使模型能够学习到与定位质量相关的目标提议。
关键设计:在文本到区域生成中,场景感知修复引导器利用图像的上下文信息,指导图像修复过程,避免生成不自然的区域。在区域到文本生成中,使用多个不同的提示词,例如“a photo of a [object]”、“a close-up of a [object]”,以生成更全面、更准确的描述。定位感知的区域-文本对比损失通过调整损失权重,使模型更加关注高质量的区域提议。
🖼️ 关键图片
📊 实验亮点
实验结果表明,RTGen能够显著提升开放词汇目标检测的性能。例如,在使用更多数据的情况下,RTGen能够持续提高模型性能,超越现有的最先进方法。具体的性能提升数据在论文中进行了详细的展示和对比。
🎯 应用场景
RTGen生成的区域-文本对可广泛应用于开放词汇目标检测、图像理解、视觉问答等领域。该方法降低了数据标注成本,促进了相关技术在自动驾驶、智能安防、机器人等领域的应用,并有望推动人工智能的进一步发展。
📄 摘要(原文)
Open-vocabulary object detection (OVD) requires solid modeling of the region-semantic relationship, which could be learned from massive region-text pairs. However, such data is limited in practice due to significant annotation costs. In this work, we propose RTGen to generate scalable open-vocabulary region-text pairs and demonstrate its capability to boost the performance of open-vocabulary object detection. RTGen includes both text-to-region and region-to-text generation processes on scalable image-caption data. The text-to-region generation is powered by image inpainting, directed by our proposed scene-aware inpainting guider for overall layout harmony. For region-to-text generation, we perform multiple region-level image captioning with various prompts and select the best matching text according to CLIP similarity. To facilitate detection training on region-text pairs, we also introduce a localization-aware region-text contrastive loss that learns object proposals tailored with different localization qualities. Extensive experiments demonstrate that our RTGen can serve as a scalable, semantically rich, and effective source for open-vocabulary object detection and continue to improve the model performance when more data is utilized, delivering superior performance compared to the existing state-of-the-art methods.