OV-DQUO: Open-Vocabulary DETR with Denoising Text Query Training and Open-World Unknown Objects Supervision

📄 arXiv: 2405.17913v2 📥 PDF

作者: Junjie Wang, Bin Chen, Bin Kang, Yulin Li, YiChi Chen, Weizhi Xian, Huifeng Chang, Yong Xu

分类: cs.CV, cs.AI

发布日期: 2024-05-28 (更新: 2024-08-21)

🔗 代码/项目: GITHUB


💡 一句话要点

提出OV-DQUO,通过去噪文本查询训练和开放世界未知对象监督,提升开放词汇目标检测性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 开放词汇目标检测 DETR 去噪训练 对比学习 开放世界学习 未知对象检测

📋 核心要点

  1. 现有开放词汇检测器易对已训练类别赋予过高置信度,并将新类别与背景混淆,是主要挑战。
  2. OV-DQUO通过通配符匹配和去噪文本查询训练,使模型能从未知对象和文本嵌入对中学习,区分新对象与背景。
  3. 在OV-COCO和OV-LVIS上,OV-DQUO无需额外数据,分别取得45.6 AP50和39.3 mAP的SOTA结果。

📝 摘要(中文)

本文提出了一种名为OV-DQUO的开放词汇DETR,它结合了去噪文本查询训练和开放世界未知对象监督,旨在解决开放词汇目标检测中,模型倾向于对已训练类别赋予更高置信度,并将新类别与背景混淆的问题。具体而言,我们引入了一种通配符匹配方法,使检测器能够从开放世界检测器识别的未知对象和具有通用语义的文本嵌入对中学习,从而减轻基础类别和新类别之间的置信度偏差。此外,我们提出了一种去噪文本查询训练策略,通过从开放世界未知对象合成前景和背景查询框对,并通过对比学习训练检测器,增强其区分新对象与背景的能力。在具有挑战性的OV-COCO和OV-LVIS基准测试中进行了大量实验,无需额外训练数据,在新类别上分别实现了45.6 AP50和39.3 mAP的最新结果。

🔬 方法详解

问题定义:开放词汇目标检测旨在检测训练集中未出现过的新类别物体。现有方法在训练时仅使用已知类别数据,导致模型对已知类别过于自信,容易将未知类别误判为背景或已知类别,泛化能力不足。

核心思路:OV-DQUO的核心思路是通过引入开放世界未知对象监督和去噪文本查询训练,让模型能够学习区分未知类别物体,并降低对已知类别的过度自信。通过利用开放世界检测器识别的未知物体,结合文本嵌入信息,为模型提供关于未知类别的先验知识。

技术框架:OV-DQUO基于DETR框架,主要包含以下模块:1) 开放世界未知对象检测器:用于检测图像中未被标注的物体,作为未知类别的候选样本。2) 通配符匹配模块:将开放世界检测器检测到的未知物体与具有通用语义的文本嵌入进行匹配,生成伪标签。3) 去噪文本查询训练模块:通过对比学习,训练模型区分前景(未知物体)和背景。

关键创新:1) 引入开放世界未知对象监督,利用未标注数据提升模型对未知类别的识别能力。2) 提出去噪文本查询训练策略,通过对比学习增强模型区分前景和背景的能力。3) 通配符匹配方法,将视觉信息与文本信息对齐,为未知物体生成伪标签。

关键设计:1) 通配符匹配:使用余弦相似度计算视觉特征和文本嵌入之间的相似度,选择相似度最高的文本作为伪标签。2) 去噪文本查询训练:构建正负样本对,正样本为未知物体和对应的文本嵌入,负样本为背景区域和随机文本嵌入。使用InfoNCE损失函数进行对比学习。3) 损失函数:采用DETR的标准损失函数,包括分类损失、bbox回归损失和GIoU损失。同时,加入对比学习损失,用于优化去噪文本查询训练模块。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OV-DQUO在OV-COCO和OV-LVIS数据集上取得了显著的性能提升,无需额外训练数据,在OV-COCO数据集上,新类别上的AP50达到45.6,在OV-LVIS数据集上,mAP达到39.3,均超过了现有SOTA方法。这表明OV-DQUO在开放词汇目标检测方面具有很强的竞争力。

🎯 应用场景

OV-DQUO可应用于智能安防、自动驾驶、机器人等领域,提升在复杂环境中识别未知物体的能力。例如,在自动驾驶中,可以检测未知的交通标志或障碍物,提高安全性。在机器人领域,可以帮助机器人识别新的工具或物品,扩展其应用范围。该研究有助于推动开放世界环境下的目标检测技术发展。

📄 摘要(原文)

Open-vocabulary detection aims to detect objects from novel categories beyond the base categories on which the detector is trained. However, existing open-vocabulary detectors trained on base category data tend to assign higher confidence to trained categories and confuse novel categories with the background. To resolve this, we propose OV-DQUO, an \textbf{O}pen-\textbf{V}ocabulary DETR with \textbf{D}enoising text \textbf{Q}uery training and open-world \textbf{U}nknown \textbf{O}bjects supervision. Specifically, we introduce a wildcard matching method. This method enables the detector to learn from pairs of unknown objects recognized by the open-world detector and text embeddings with general semantics, mitigating the confidence bias between base and novel categories. Additionally, we propose a denoising text query training strategy. It synthesizes foreground and background query-box pairs from open-world unknown objects to train the detector through contrastive learning, enhancing its ability to distinguish novel objects from the background. We conducted extensive experiments on the challenging OV-COCO and OV-LVIS benchmarks, achieving new state-of-the-art results of 45.6 AP50 and 39.3 mAP on novel categories respectively, without the need for additional training data. Models and code are released at \url{https://github.com/xiaomoguhz/OV-DQUO}