LLM-Guided Agentic Object Detection for Open-World Understanding

作者: Furkan Mumcu, Michael J. Jones, Anoop Cherian, Yasin Yilmaz

分类: cs.CV

发布日期: 2025-07-14

💡 一句话要点

提出LLM引导的Agentic目标检测框架，实现零样本、无标签的开放世界理解

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 开放世界目标检测 大型语言模型 零样本学习 无监督学习 物体命名 Agentic目标检测

📋 核心要点

现有目标检测方法难以处理开放世界中的新物体，需要大量标注数据和重新训练。
LAOD框架利用LLM生成场景相关的物体名称，驱动开放词汇检测器，实现零样本检测。
实验表明，该方法在LVIS、COCO等数据集上，能有效检测和命名未知物体，提升了开放世界理解能力。

📝 摘要（中文）

传统目标检测依赖于固定的类别集合，处理新物体需要昂贵的重新训练。开放世界目标检测(OWOD)和开放词汇目标检测(OVOD)提高了灵活性，但OWOD缺乏未知物体的语义标签，OVOD依赖用户提示，限制了自主性。我们提出了一个LLM引导的agentic目标检测(LAOD)框架，通过提示大型语言模型(LLM)生成特定场景的物体名称，实现完全无标签的零样本检测。这些名称被传递给开放词汇检测器进行定位，使系统能够动态地适应其目标。我们引入了两个新的指标，类别无关平均精度(CAAP)和语义命名平均精度(SNAP)，分别评估定位和命名。在LVIS、COCO和COCO-OOD上的实验验证了我们的方法，表明其在检测和命名新物体方面表现出色。我们的方法为开放世界理解提供了增强的自主性和适应性。

🔬 方法详解

问题定义：传统目标检测器依赖于预定义的类别集合，无法有效识别和定位训练集中未出现的新物体。开放世界目标检测(OWOD)虽然允许检测未知物体，但缺乏对这些物体的语义描述。开放词汇目标检测(OVOD)依赖于用户提供的文本提示，限制了其自主性，并且需要人工干预。

核心思路：利用大型语言模型(LLM)的强大语义理解和生成能力，自动生成与当前场景相关的物体名称。这些生成的名称作为开放词汇检测器的提示，引导其检测和定位图像中的物体。通过这种方式，实现了无需人工干预的、零样本的开放世界目标检测。

技术框架：LAOD框架主要包含两个模块：LLM驱动的物体名称生成器和开放词汇目标检测器。首先，将图像输入LLM，通过特定的prompt，LLM生成一组与图像场景相关的物体名称。然后，将这些生成的名称作为文本提示输入到开放词汇目标检测器中，检测器根据这些提示在图像中定位相应的物体。最后，输出检测到的物体及其对应的边界框。

关键创新：该方法的核心创新在于利用LLM的生成能力，实现了完全无标签的开放世界目标检测。与传统的OWOD和OVOD方法相比，LAOD无需预先定义未知类别或人工提供文本提示，从而提高了系统的自主性和适应性。此外，论文还提出了两个新的评估指标，CAAP和SNAP，分别用于评估定位和命名的准确性。

关键设计：LLM的选择和prompt的设计是关键。论文中使用了特定的LLM，并通过精心设计的prompt，引导LLM生成高质量的物体名称。开放词汇目标检测器可以选择现有的模型，如GLIP或CLIP。此外，CAAP和SNAP指标的设计也至关重要，它们能够更全面地评估开放世界目标检测的性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，LAOD框架在LVIS、COCO和COCO-OOD数据集上取得了显著的性能。在检测和命名新物体方面，LAOD的性能优于现有的OWOD和OVOD方法。例如，在COCO-OOD数据集上，LAOD的CAAP和SNAP指标均取得了显著提升，验证了其在开放世界目标检测方面的有效性。

🎯 应用场景

该研究成果可应用于智能监控、自动驾驶、机器人导航等领域。例如，在智能监控中，系统可以自动识别监控画面中的异常物体，无需人工预先定义。在自动驾驶中，车辆可以识别道路上的新物体，提高行驶安全性。在机器人导航中，机器人可以识别环境中的各种物体，从而更好地完成任务。

📄 摘要（原文）

Object detection traditionally relies on fixed category sets, requiring costly re-training to handle novel objects. While Open-World and Open-Vocabulary Object Detection (OWOD and OVOD) improve flexibility, OWOD lacks semantic labels for unknowns, and OVOD depends on user prompts, limiting autonomy. We propose an LLM-guided agentic object detection (LAOD) framework that enables fully label-free, zero-shot detection by prompting a Large Language Model (LLM) to generate scene-specific object names. These are passed to an open-vocabulary detector for localization, allowing the system to adapt its goals dynamically. We introduce two new metrics, Class-Agnostic Average Precision (CAAP) and Semantic Naming Average Precision (SNAP), to separately evaluate localization and naming. Experiments on LVIS, COCO, and COCO-OOD validate our approach, showing strong performance in detecting and naming novel objects. Our method offers enhanced autonomy and adaptability for open-world understanding.

LLM-Guided Agentic Object Detection for Open-World Understanding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理