OV-DINO: Unified Open-Vocabulary Detection with Language-Aware Selective Fusion

📄 arXiv: 2407.07844v2 📥 PDF

作者: Hao Wang, Pengzhen Ren, Zequn Jie, Xiao Dong, Chengjian Feng, Yinlong Qian, Lin Ma, Dongmei Jiang, Yaowei Wang, Xiangyuan Lan, Xiaodan Liang

分类: cs.CV

发布日期: 2024-07-10 (更新: 2024-07-22)

备注: Technical Report

🔗 代码/项目: GITHUB


💡 一句话要点

OV-DINO:提出语言感知选择性融合的统一开放词汇目标检测框架

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 开放词汇检测 跨模态融合 语言感知 伪标签噪声消除 统一数据集成

📋 核心要点

  1. 现有开放词汇检测方法在伪标签数据噪声消除和区域级跨模态融合方面存在不足。
  2. OV-DINO通过统一数据集成和语言感知选择性融合,提升模型在开放词汇场景下的检测性能。
  3. OV-DINO在COCO和LVIS数据集上取得了SOTA结果,验证了其在零样本和微调场景下的有效性。

📝 摘要(中文)

本文提出了一种名为OV-DINO的统一开放词汇目标检测方法,该方法通过在多样化的大规模数据集上进行预训练,并结合语言感知的选择性融合,从而在一个统一的框架内实现开放词汇检测。为了解决伪标签带来的数据噪声问题,本文引入了统一数据集成(UniDI)流程,将不同数据源统一为以检测为中心的数据格式,从而实现端到端训练并消除噪声。此外,本文还提出了语言感知选择性融合(LASF)模块,通过语言感知的查询选择和融合过程来增强跨模态对齐。在流行的开放词汇检测基准测试中,OV-DINO取得了最先进的结果,在零样本设置下,COCO基准上的AP为50.6%,LVIS基准上的AP为40.1%,展示了其强大的泛化能力。在COCO上进行微调后,OV-DINO的AP达到了58.4%,优于许多使用相同骨干网络的现有方法。

🔬 方法详解

问题定义:开放词汇目标检测旨在检测训练期间未见过的类别,现有方法依赖大规模数据集上的预训练和伪标签,但伪标签质量不高,且缺乏有效的区域级跨模态融合机制,导致检测性能受限。

核心思路:OV-DINO的核心在于通过统一数据集成(UniDI)消除伪标签噪声,并利用语言感知选择性融合(LASF)增强视觉和语言特征的对齐。UniDI将不同数据源统一格式,减少噪声;LASF则根据语言信息选择性地融合视觉特征,提升检测精度。

技术框架:OV-DINO包含UniDI和LASF两个主要模块。UniDI负责数据预处理,将不同来源的数据转换为统一的检测格式。LASF则集成到检测器的区域提议网络(RPN)或检测头中,用于选择性地融合语言和视觉特征。整个流程包括数据预处理、模型预训练、选择性融合和目标检测。

关键创新:OV-DINO的关键创新在于LASF模块,它不同于传统的直接融合视觉和语言特征的方法,而是根据语言信息动态地选择需要融合的视觉特征。这种选择性融合机制能够更有效地利用语言信息,提高跨模态对齐的准确性。

关键设计:UniDI的具体实现包括数据清洗、格式转换和数据增强等步骤。LASF模块中,语言特征通过文本编码器提取,并用于计算视觉特征的权重,权重高的视觉特征被选择性地融合。损失函数包括检测损失和对比学习损失,用于优化检测性能和跨模态对齐。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OV-DINO在COCO数据集上实现了50.6%的零样本AP,在LVIS数据集上实现了40.1%的零样本AP,均达到了SOTA水平。在COCO数据集上进行微调后,OV-DINO的AP达到了58.4%,超过了许多使用相同骨干网络的现有方法,证明了其优越的性能和泛化能力。

🎯 应用场景

OV-DINO在智能安防、自动驾驶、图像搜索等领域具有广泛的应用前景。它可以用于检测未知类别的物体,提高系统的鲁棒性和适应性。例如,在自动驾驶中,可以检测到未知的交通标志或障碍物,从而提高驾驶安全性。在图像搜索中,可以根据用户输入的文本描述,搜索包含特定物体的图像。

📄 摘要(原文)

Open-vocabulary detection is a challenging task due to the requirement of detecting objects based on class names, including those not encountered during training. Existing methods have shown strong zero-shot detection capabilities through pre-training and pseudo-labeling on diverse large-scale datasets. However, these approaches encounter two main challenges: (i) how to effectively eliminate data noise from pseudo-labeling, and (ii) how to efficiently leverage the language-aware capability for region-level cross-modality fusion and alignment. To address these challenges, we propose a novel unified open-vocabulary detection method called OV-DINO, which is pre-trained on diverse large-scale datasets with language-aware selective fusion in a unified framework. Specifically, we introduce a Unified Data Integration (UniDI) pipeline to enable end-to-end training and eliminate noise from pseudo-label generation by unifying different data sources into detection-centric data format. In addition, we propose a Language-Aware Selective Fusion (LASF) module to enhance the cross-modality alignment through a language-aware query selection and fusion process. We evaluate the performance of the proposed OV-DINO on popular open-vocabulary detection benchmarks, achieving state-of-the-art results with an AP of 50.6% on the COCO benchmark and 40.1% on the LVIS benchmark in a zero-shot manner, demonstrating its strong generalization ability. Furthermore, the fine-tuned OV-DINO on COCO achieves 58.4% AP, outperforming many existing methods with the same backbone. The code for OV-DINO is available at https://github.com/wanghao9610/OV-DINO.