From Open Vocabulary to Open World: Teaching Vision Language Models to Detect Novel Objects

作者: Zizhao Li, Zhengkang Xiang, Joseph West, Kourosh Khoshelham

分类: cs.CV, cs.AI

发布日期: 2026-02-28

💡 一句话要点

提出OWEL和MSCAL，使开放词汇目标检测模型具备开放世界新物体检测能力

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 开放世界目标检测 开放词汇目标检测 分布外检测 伪未知嵌入 多尺度对比学习

📋 核心要点

现有开放词汇目标检测(OVD)依赖精确提示，且难以区分分布外(OOD)物体，限制了其应用。
提出OWEL学习未知类别嵌入位置，并用MSCAL提升不同尺度下物体嵌入的类内一致性，从而检测OOD物体。
在开放世界目标检测和自动驾驶基准测试中，该方法取得了领先性能，并保留了OVD能力。

📝 摘要（中文）

传统目标检测方法基于闭集假设，只能检测训练集中预定义的固定数量的物体。开放词汇目标检测(OVD)通过原则上无限制的词汇表来定义物体，降低了特定任务模型训练的成本。然而，OVD严重依赖于“oracle”提供的准确提示，限制了其在驾驶场景感知等关键应用中的使用。OVD模型容易错误分类与已知类别具有相似特征的近分布外(NOOD)物体，并忽略远分布外(FOOD)物体。为了解决这些限制，我们提出了一个框架，通过识别和增量学习先前未见过的物体，使OVD模型能够在开放世界环境中运行。为了检测FOOD物体，我们提出了开放世界嵌入学习(OWEL)，并引入了伪未知嵌入的概念，该概念基于已知类别的信息推断未知类别在连续语义空间中的位置。我们还提出了多尺度对比锚点学习(MSCAL)，通过提高不同尺度下物体嵌入的类内一致性，从而能够识别被错误分类的未知物体。所提出的方法在标准开放世界目标检测和自动驾驶基准上实现了最先进的性能，同时保持了其开放词汇目标检测能力。

🔬 方法详解

问题定义：开放世界目标检测旨在解决传统目标检测方法只能识别预定义类别的问题。现有开放词汇目标检测(OVD)虽然可以检测任意文本描述的物体，但严重依赖准确的文本提示，并且在区分与已知类别相似的近分布外(NOOD)物体和完全未知的远分布外(FOOD)物体方面表现不佳。这限制了OVD在实际开放世界场景中的应用，例如自动驾驶。

核心思路：该论文的核心思路是通过学习未知类别的嵌入表示，并利用多尺度对比学习来提高模型区分已知和未知物体的能力。具体来说，通过“伪未知嵌入”来模拟未知类别在语义空间中的位置，并使用多尺度对比锚点学习来增强物体嵌入的类内一致性，从而使模型能够识别和区分未见过的物体。

技术框架：该框架主要包含两个核心模块：开放世界嵌入学习(OWEL)和多尺度对比锚点学习(MSCAL)。OWEL负责生成伪未知嵌入，用于模拟未知类别在语义空间中的位置。MSCAL则通过在不同尺度上进行对比学习，提高物体嵌入的类内一致性，从而帮助模型区分已知和未知物体。整个流程包括：首先利用OWEL生成伪未知嵌入；然后，利用MSCAL训练模型，使其能够区分已知和未知物体；最后，利用训练好的模型进行开放世界目标检测。

关键创新：该论文的关键创新在于提出了开放世界嵌入学习(OWEL)和多尺度对比锚点学习(MSCAL)。OWEL通过引入“伪未知嵌入”的概念，解决了模型无法直接学习未知类别嵌入的问题。MSCAL则通过在不同尺度上进行对比学习，提高了物体嵌入的鲁棒性和区分性，从而更好地识别未知物体。与现有方法相比，该方法不需要准确的文本提示，并且能够更好地处理分布外物体。

关键设计：OWEL的关键设计在于如何生成有效的伪未知嵌入。论文通过分析已知类别的嵌入分布，推断未知类别可能出现的区域，并在这些区域生成伪未知嵌入。MSCAL的关键设计在于如何选择合适的尺度进行对比学习。论文采用了多尺度策略，在不同尺度上进行对比学习，从而提高物体嵌入的鲁棒性。损失函数方面，采用了对比损失函数，用于拉近同一类别的物体嵌入，并推远不同类别的物体嵌入。具体的网络结构细节未在摘要中详细描述，需要参考论文全文。

🖼️ 关键图片

📊 实验亮点

该方法在标准开放世界目标检测和自动驾驶基准测试中取得了最先进的性能，同时保持了开放词汇目标检测能力。具体的性能数据和对比基线需要在论文全文中查找。摘要强调了该方法在处理未知物体方面的优势，表明其在开放世界场景中具有很强的竞争力。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、智能监控等领域。在这些场景中，模型需要能够识别和处理未知的、先前未见过的物体。通过提高模型在开放世界中的目标检测能力，可以增强系统的鲁棒性和适应性，使其能够更好地应对复杂多变的环境。未来，该技术有望在更多实际应用中发挥重要作用。

📄 摘要（原文）

Traditional object detection methods operate under the closed-set assumption, where models can only detect a fixed number of objects predefined in the training set. Recent works on open vocabulary object detection (OVD) enable the detection of objects defined by an in-principle unbounded vocabulary, which reduces the cost of training models for specific tasks. However, OVD heavily relies on accurate prompts provided by an ``oracle'', which limits their use in critical applications such as driving scene perception. OVD models tend to misclassify near-out-of-distribution (NOOD) objects that have similar features to known classes, and ignore far-out-of-distribution (FOOD) objects. To address these limitations, we propose a framework that enables OVD models to operate in open world settings, by identifying and incrementally learning previously unseen objects. To detect FOOD objects, we propose Open World Embedding Learning (OWEL) and introduce the concept of Pseudo Unknown Embedding which infers the location of unknown classes in a continuous semantic space based on the information of known classes. We also propose Multi-Scale Contrastive Anchor Learning (MSCAL), which enables the identification of misclassified unknown objects by promoting the intra-class consistency of object embeddings at different scales. The proposed method achieves state-of-the-art performance on standard open world object detection and autonomous driving benchmarks while maintaining its open vocabulary object detection capability.

From Open Vocabulary to Open World: Teaching Vision Language Models to Detect Novel Objects

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理