YOLO-UniOW: Efficient Universal Open-World Object Detection

作者: Lihao Liu, Juexiao Feng, Hui Chen, Ao Wang, Lin Song, Jungong Han, Guiguang Ding

分类: cs.CV

发布日期: 2024-12-30

🔗 代码/项目: GITHUB

💡 一句话要点

YOLO-UniOW：高效通用开放世界目标检测模型，解决传统目标检测的局限性。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 开放世界目标检测 开放词汇目标检测 CLIP 自适应决策学习 通配符学习 YOLO 目标检测

📋 核心要点

传统目标检测模型依赖闭集数据，无法识别训练集中未出现的物体，限制了其在开放世界场景的应用。
YOLO-UniOW通过自适应决策学习和通配符学习，实现了高效的开放词汇和开放世界目标检测。
实验结果表明，YOLO-UniOW在多个数据集上取得了显著的性能提升，并具有较高的推理速度。

📝 摘要（中文）

传统目标检测模型受限于闭集数据集，只能检测训练期间遇到的类别。多模态模型通过对齐文本和图像模态扩展了类别识别，但由于跨模态融合引入了显著的推理开销，并且仍然受到预定义词汇表的限制，使其无法有效处理开放世界场景中的未知对象。本文提出通用开放世界目标检测（Uni-OWD）这一新范式，统一了开放词汇和开放世界目标检测任务。为了应对这一设置的挑战，我们提出了一种名为YOLO-UniOW的新模型，它提升了效率、通用性和性能的边界。YOLO-UniOW结合了自适应决策学习，用CLIP潜在空间中的轻量级对齐取代了计算昂贵的跨模态融合，实现了高效检测，同时不影响泛化能力。此外，我们设计了一种通配符学习策略，将超出分布的对象检测为“未知”，同时无需增量学习即可实现动态词汇扩展。这种设计使YOLO-UniOW能够无缝适应开放世界环境中的新类别。大量实验验证了YOLO-UniOW的优越性，在LVIS上实现了34.6 AP和30.0 APr，推理速度为69.6 FPS。该模型还在M-OWODB、S-OWODB和nuScenes数据集上设置了基准，展示了其在开放世界目标检测中无与伦比的性能。

🔬 方法详解

问题定义：传统目标检测器只能检测训练集中已知的类别，无法识别开放世界中未知的物体。多模态方法虽然可以扩展识别范围，但计算成本高昂，且受限于预定义的词汇表。因此，如何高效地检测已知和未知的物体，并具备动态扩展词汇的能力，是开放世界目标检测面临的关键问题。

核心思路：YOLO-UniOW的核心思路是利用CLIP的视觉-语言对齐能力，在CLIP的潜在空间中进行轻量级的特征对齐，从而避免了复杂的跨模态融合。同时，引入通配符学习策略，将未知的物体检测为“未知”类别，并允许动态地添加新的类别，而无需重新训练模型。

技术框架：YOLO-UniOW基于YOLO架构，主要包含以下模块：1) 特征提取模块：提取输入图像的视觉特征。2) CLIP潜在空间对齐模块：将视觉特征投影到CLIP的潜在空间，并与文本嵌入进行对齐。3) 自适应决策学习模块：学习一个决策函数，用于区分已知类别和未知类别。4) 通配符学习模块：训练模型将未知的物体预测为“未知”类别。5) 检测头：输出目标的位置、类别和置信度。

关键创新：YOLO-UniOW的关键创新在于：1) 提出了自适应决策学习，用轻量级的CLIP潜在空间对齐取代了计算昂贵的跨模态融合，提高了推理效率。2) 设计了通配符学习策略，实现了对未知物体的检测，并允许动态地扩展词汇表，而无需增量学习。

关键设计：1) 自适应决策学习：使用一个小型神经网络学习一个决策函数，该函数根据视觉特征和文本嵌入之间的相似度，判断物体是否属于已知类别。2) 通配符学习：在训练集中添加一个“未知”类别，并随机选择一些背景区域作为该类别的样本。在推理时，如果物体的置信度低于某个阈值，则将其预测为“未知”类别。3) 损失函数：使用标准的YOLO损失函数，并添加一个额外的损失项，用于惩罚将已知物体预测为“未知”类别的情况。

🖼️ 关键图片

📊 实验亮点

YOLO-UniOW在LVIS数据集上实现了34.6 AP和30.0 APr，推理速度为69.6 FPS。在M-OWODB、S-OWODB和nuScenes数据集上，YOLO-UniOW也取得了显著的性能提升，超越了现有的开放世界目标检测方法。这些结果表明，YOLO-UniOW在效率、通用性和性能方面都具有优势。

🎯 应用场景

YOLO-UniOW在自动驾驶、机器人导航、智能监控等领域具有广泛的应用前景。它可以帮助机器人在复杂环境中识别各种物体，包括未知的物体，从而提高其感知能力和适应性。此外，该模型还可以应用于图像搜索、内容审核等领域，实现更智能化的图像理解和分析。

📄 摘要（原文）

Traditional object detection models are constrained by the limitations of closed-set datasets, detecting only categories encountered during training. While multimodal models have extended category recognition by aligning text and image modalities, they introduce significant inference overhead due to cross-modality fusion and still remain restricted by predefined vocabulary, leaving them ineffective at handling unknown objects in open-world scenarios. In this work, we introduce Universal Open-World Object Detection (Uni-OWD), a new paradigm that unifies open-vocabulary and open-world object detection tasks. To address the challenges of this setting, we propose YOLO-UniOW, a novel model that advances the boundaries of efficiency, versatility, and performance. YOLO-UniOW incorporates Adaptive Decision Learning to replace computationally expensive cross-modality fusion with lightweight alignment in the CLIP latent space, achieving efficient detection without compromising generalization. Additionally, we design a Wildcard Learning strategy that detects out-of-distribution objects as "unknown" while enabling dynamic vocabulary expansion without the need for incremental learning. This design empowers YOLO-UniOW to seamlessly adapt to new categories in open-world environments. Extensive experiments validate the superiority of YOLO-UniOW, achieving achieving 34.6 AP and 30.0 APr on LVIS with an inference speed of 69.6 FPS. The model also sets benchmarks on M-OWODB, S-OWODB, and nuScenes datasets, showcasing its unmatched performance in open-world object detection. Code and models are available at https://github.com/THU-MIG/YOLO-UniOW.

YOLO-UniOW: Efficient Universal Open-World Object Detection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理