LLM-Guided Agentic Object Detection for Open-World Understanding

📄 arXiv: 2507.10844v1 📥 PDF

作者: Furkan Mumcu, Michael J. Jones, Anoop Cherian, Yasin Yilmaz

分类: cs.CV

发布日期: 2025-07-14


💡 一句话要点

提出LLM引导的Agentic目标检测框架,实现零样本、无标签的开放世界理解

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 开放世界目标检测 大型语言模型 零样本学习 无监督学习 物体命名 Agentic目标检测

📋 核心要点

  1. 现有目标检测方法难以处理开放世界中的新物体,需要大量标注数据和重新训练。
  2. LAOD框架利用LLM生成场景相关的物体名称,驱动开放词汇检测器,实现零样本检测。
  3. 实验表明,该方法在LVIS、COCO等数据集上,能有效检测和命名未知物体,提升了开放世界理解能力。

📝 摘要(中文)

传统目标检测依赖于固定的类别集合,处理新物体需要昂贵的重新训练。开放世界目标检测(OWOD)和开放词汇目标检测(OVOD)提高了灵活性,但OWOD缺乏未知物体的语义标签,OVOD依赖用户提示,限制了自主性。我们提出了一个LLM引导的agentic目标检测(LAOD)框架,通过提示大型语言模型(LLM)生成特定场景的物体名称,实现完全无标签的零样本检测。这些名称被传递给开放词汇检测器进行定位,使系统能够动态地适应其目标。我们引入了两个新的指标,类别无关平均精度(CAAP)和语义命名平均精度(SNAP),分别评估定位和命名。在LVIS、COCO和COCO-OOD上的实验验证了我们的方法,表明其在检测和命名新物体方面表现出色。我们的方法为开放世界理解提供了增强的自主性和适应性。

🔬 方法详解

问题定义:传统目标检测器依赖于预定义的类别集合,无法有效识别和定位训练集中未出现的新物体。开放世界目标检测(OWOD)虽然允许检测未知物体,但缺乏对这些物体的语义描述。开放词汇目标检测(OVOD)依赖于用户提供的文本提示,限制了其自主性,并且需要人工干预。

核心思路:利用大型语言模型(LLM)的强大语义理解和生成能力,自动生成与当前场景相关的物体名称。这些生成的名称作为开放词汇检测器的提示,引导其检测和定位图像中的物体。通过这种方式,实现了无需人工干预的、零样本的开放世界目标检测。

技术框架:LAOD框架主要包含两个模块:LLM驱动的物体名称生成器和开放词汇目标检测器。首先,将图像输入LLM,通过特定的prompt,LLM生成一组与图像场景相关的物体名称。然后,将这些生成的名称作为文本提示输入到开放词汇目标检测器中,检测器根据这些提示在图像中定位相应的物体。最后,输出检测到的物体及其对应的边界框。

关键创新:该方法的核心创新在于利用LLM的生成能力,实现了完全无标签的开放世界目标检测。与传统的OWOD和OVOD方法相比,LAOD无需预先定义未知类别或人工提供文本提示,从而提高了系统的自主性和适应性。此外,论文还提出了两个新的评估指标,CAAP和SNAP,分别用于评估定位和命名的准确性。

关键设计:LLM的选择和prompt的设计是关键。论文中使用了特定的LLM,并通过精心设计的prompt,引导LLM生成高质量的物体名称。开放词汇目标检测器可以选择现有的模型,如GLIP或CLIP。此外,CAAP和SNAP指标的设计也至关重要,它们能够更全面地评估开放世界目标检测的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LAOD框架在LVIS、COCO和COCO-OOD数据集上取得了显著的性能。在检测和命名新物体方面,LAOD的性能优于现有的OWOD和OVOD方法。例如,在COCO-OOD数据集上,LAOD的CAAP和SNAP指标均取得了显著提升,验证了其在开放世界目标检测方面的有效性。

🎯 应用场景

该研究成果可应用于智能监控、自动驾驶、机器人导航等领域。例如,在智能监控中,系统可以自动识别监控画面中的异常物体,无需人工预先定义。在自动驾驶中,车辆可以识别道路上的新物体,提高行驶安全性。在机器人导航中,机器人可以识别环境中的各种物体,从而更好地完成任务。

📄 摘要(原文)

Object detection traditionally relies on fixed category sets, requiring costly re-training to handle novel objects. While Open-World and Open-Vocabulary Object Detection (OWOD and OVOD) improve flexibility, OWOD lacks semantic labels for unknowns, and OVOD depends on user prompts, limiting autonomy. We propose an LLM-guided agentic object detection (LAOD) framework that enables fully label-free, zero-shot detection by prompting a Large Language Model (LLM) to generate scene-specific object names. These are passed to an open-vocabulary detector for localization, allowing the system to adapt its goals dynamically. We introduce two new metrics, Class-Agnostic Average Precision (CAAP) and Semantic Naming Average Precision (SNAP), to separately evaluate localization and naming. Experiments on LVIS, COCO, and COCO-OOD validate our approach, showing strong performance in detecting and naming novel objects. Our method offers enhanced autonomy and adaptability for open-world understanding.