YOLO-UniOW: Efficient Universal Open-World Object Detection

📄 arXiv: 2412.20645v1 📥 PDF

作者: Lihao Liu, Juexiao Feng, Hui Chen, Ao Wang, Lin Song, Jungong Han, Guiguang Ding

分类: cs.CV

发布日期: 2024-12-30

🔗 代码/项目: GITHUB


💡 一句话要点

YOLO-UniOW:高效通用开放世界目标检测模型,解决传统目标检测的局限性。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 开放世界目标检测 开放词汇目标检测 CLIP 自适应决策学习 通配符学习 YOLO 目标检测

📋 核心要点

  1. 传统目标检测模型依赖闭集数据,无法识别训练集中未出现的物体,限制了其在开放世界场景的应用。
  2. YOLO-UniOW通过自适应决策学习和通配符学习,实现了高效的开放词汇和开放世界目标检测。
  3. 实验结果表明,YOLO-UniOW在多个数据集上取得了显著的性能提升,并具有较高的推理速度。

📝 摘要(中文)

传统目标检测模型受限于闭集数据集,只能检测训练期间遇到的类别。多模态模型通过对齐文本和图像模态扩展了类别识别,但由于跨模态融合引入了显著的推理开销,并且仍然受到预定义词汇表的限制,使其无法有效处理开放世界场景中的未知对象。本文提出通用开放世界目标检测(Uni-OWD)这一新范式,统一了开放词汇和开放世界目标检测任务。为了应对这一设置的挑战,我们提出了一种名为YOLO-UniOW的新模型,它提升了效率、通用性和性能的边界。YOLO-UniOW结合了自适应决策学习,用CLIP潜在空间中的轻量级对齐取代了计算昂贵的跨模态融合,实现了高效检测,同时不影响泛化能力。此外,我们设计了一种通配符学习策略,将超出分布的对象检测为“未知”,同时无需增量学习即可实现动态词汇扩展。这种设计使YOLO-UniOW能够无缝适应开放世界环境中的新类别。大量实验验证了YOLO-UniOW的优越性,在LVIS上实现了34.6 AP和30.0 APr,推理速度为69.6 FPS。该模型还在M-OWODB、S-OWODB和nuScenes数据集上设置了基准,展示了其在开放世界目标检测中无与伦比的性能。

🔬 方法详解

问题定义:传统目标检测器只能检测训练集中已知的类别,无法识别开放世界中未知的物体。多模态方法虽然可以扩展识别范围,但计算成本高昂,且受限于预定义的词汇表。因此,如何高效地检测已知和未知的物体,并具备动态扩展词汇的能力,是开放世界目标检测面临的关键问题。

核心思路:YOLO-UniOW的核心思路是利用CLIP的视觉-语言对齐能力,在CLIP的潜在空间中进行轻量级的特征对齐,从而避免了复杂的跨模态融合。同时,引入通配符学习策略,将未知的物体检测为“未知”类别,并允许动态地添加新的类别,而无需重新训练模型。

技术框架:YOLO-UniOW基于YOLO架构,主要包含以下模块:1) 特征提取模块:提取输入图像的视觉特征。2) CLIP潜在空间对齐模块:将视觉特征投影到CLIP的潜在空间,并与文本嵌入进行对齐。3) 自适应决策学习模块:学习一个决策函数,用于区分已知类别和未知类别。4) 通配符学习模块:训练模型将未知的物体预测为“未知”类别。5) 检测头:输出目标的位置、类别和置信度。

关键创新:YOLO-UniOW的关键创新在于:1) 提出了自适应决策学习,用轻量级的CLIP潜在空间对齐取代了计算昂贵的跨模态融合,提高了推理效率。2) 设计了通配符学习策略,实现了对未知物体的检测,并允许动态地扩展词汇表,而无需增量学习。

关键设计:1) 自适应决策学习:使用一个小型神经网络学习一个决策函数,该函数根据视觉特征和文本嵌入之间的相似度,判断物体是否属于已知类别。2) 通配符学习:在训练集中添加一个“未知”类别,并随机选择一些背景区域作为该类别的样本。在推理时,如果物体的置信度低于某个阈值,则将其预测为“未知”类别。3) 损失函数:使用标准的YOLO损失函数,并添加一个额外的损失项,用于惩罚将已知物体预测为“未知”类别的情况。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

YOLO-UniOW在LVIS数据集上实现了34.6 AP和30.0 APr,推理速度为69.6 FPS。在M-OWODB、S-OWODB和nuScenes数据集上,YOLO-UniOW也取得了显著的性能提升,超越了现有的开放世界目标检测方法。这些结果表明,YOLO-UniOW在效率、通用性和性能方面都具有优势。

🎯 应用场景

YOLO-UniOW在自动驾驶、机器人导航、智能监控等领域具有广泛的应用前景。它可以帮助机器人在复杂环境中识别各种物体,包括未知的物体,从而提高其感知能力和适应性。此外,该模型还可以应用于图像搜索、内容审核等领域,实现更智能化的图像理解和分析。

📄 摘要(原文)

Traditional object detection models are constrained by the limitations of closed-set datasets, detecting only categories encountered during training. While multimodal models have extended category recognition by aligning text and image modalities, they introduce significant inference overhead due to cross-modality fusion and still remain restricted by predefined vocabulary, leaving them ineffective at handling unknown objects in open-world scenarios. In this work, we introduce Universal Open-World Object Detection (Uni-OWD), a new paradigm that unifies open-vocabulary and open-world object detection tasks. To address the challenges of this setting, we propose YOLO-UniOW, a novel model that advances the boundaries of efficiency, versatility, and performance. YOLO-UniOW incorporates Adaptive Decision Learning to replace computationally expensive cross-modality fusion with lightweight alignment in the CLIP latent space, achieving efficient detection without compromising generalization. Additionally, we design a Wildcard Learning strategy that detects out-of-distribution objects as "unknown" while enabling dynamic vocabulary expansion without the need for incremental learning. This design empowers YOLO-UniOW to seamlessly adapt to new categories in open-world environments. Extensive experiments validate the superiority of YOLO-UniOW, achieving achieving 34.6 AP and 30.0 APr on LVIS with an inference speed of 69.6 FPS. The model also sets benchmarks on M-OWODB, S-OWODB, and nuScenes datasets, showcasing its unmatched performance in open-world object detection. Code and models are available at https://github.com/THU-MIG/YOLO-UniOW.