Unveiling the Unknown: Open Vocabulary Object Detection with Scene Graphs

📄 arXiv: 2606.05916v1 📥 PDF

作者: Yi Chen, Yinghao Lu, Zhehao Li, Chenchen Yan, Jiafei Wu, Chong Wang, Jiangbo Qian

分类: cs.CV

发布日期: 2026-06-04


💡 一句话要点

提出场景引导关系建模框架以解决开放词汇目标检测问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting)

关键词: 开放词汇目标检测 场景图 关系建模 知识蒸馏 多模态学习 视觉信息融合 智能监控 自动驾驶

📋 核心要点

  1. 现有的开放词汇目标检测方法往往忽视了物体之间的结构化关系,导致新类别检测效果受限。
  2. 本文提出的场景引导关系建模框架,通过场景图捕捉物体之间的语义和空间关系,显著提升检测性能。
  3. 实验结果显示,本文方法在COCO和LVIS数据集上相较于其他方法显著提高了新类别的AP,验证了其有效性。

📝 摘要(中文)

开放词汇目标检测旨在识别训练数据中未包含的新类别。许多基于知识蒸馏的方法通过将知识从预训练的视觉-语言模型转移到目标检测中,展现了良好的性能。然而,这些方法往往忽视了物体之间的结构化、图像特定关系,如交互和空间排列,这限制了新类别检测的有效性。为了解决这一问题,本文提出了一种场景引导关系建模检测框架,利用场景图捕捉候选区域与上下文物体之间的结构化语义和空间关系。该框架显式建模邻近区域之间的交互,并通过关系注意模块隐式增强从场景图提取的关键关系线索。此外,本文还提出了一种基于场景的文本对齐分支,从标题中蒸馏类别知识以指导关系对齐。综合实验表明,本文模型在COCO和LVIS数据集上相较于其他开放词汇目标检测方法表现优越,显著提高了新类别的AP。

🔬 方法详解

问题定义:本文旨在解决开放词汇目标检测中对新类别的识别问题,现有方法常常忽略物体之间的结构化关系,导致检测效果不佳。

核心思路:提出的框架通过场景图建模候选区域与上下文物体之间的关系,显式建模交互并引入关系注意模块,以增强关键关系线索。

技术框架:整体架构包括场景图生成模块、关系建模模块和文本对齐分支,先通过场景图捕捉关系,再通过关系注意模块增强信息,最后进行类别知识的蒸馏与对齐。

关键创新:最重要的创新在于引入场景图和关系注意模块,显式与隐式结合建模物体间的关系,克服了传统方法的局限性。

关键设计:在网络结构中,设计了关系注意模块以增强重要关系线索,同时采用了基于场景的文本对齐分支来指导关系对齐,确保视觉信息与语义信息的有效融合。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,本文模型在COCO和LVIS数据集上相较于其他开放词汇目标检测方法,AP提升幅度显著,尤其在新类别检测上表现优越,验证了场景引导关系建模的有效性。

🎯 应用场景

该研究的潜在应用领域包括智能监控、自动驾驶、机器人视觉等,能够在复杂场景中有效识别新物体类别,提升系统的智能化水平。未来,该方法有望在多模态学习和人机交互等领域发挥更大作用。

📄 摘要(原文)

Open-vocabulary object detection seeks to identify novel object categories that were not part of the training data. Many knowledge distillation-based approaches have shown promising performance by transferring knowledge from pre-trained vision-language models to object detection. However, these methods often overlook structured, image-specific relationships between objects, such as interactions and spatial arrangements. This oversight can significantly restrict the effectiveness of detecting novel categories. To address this issue, we propose a Scene-guided Relational Modeling detection framework. This framework utilizes scene graphs to capture structured semantic and spatial relationships between candidate regions and their contextual objects. It explicitly models interactions among neighboring regions and incorporates a Relation Attention Module to implicitly amplify the key relational cues extracted from the scene graph. Furthermore, we present a scene-based textual alignment branch that distills category knowledge from captions to guide relational alignment. This approach facilitates a seamless integration of visual relations with semantic information for enhanced detection performance. Comprehensive experiments show that our model achieves superior performance compared to other OVOD methods, improving the AP for novel categories on COCO and LVIS datasets.