Interpretable Zero-shot Referring Expression Comprehension with Query-driven Scene Graphs

📄 arXiv: 2603.25004v1 📥 PDF

作者: Yike Wu, Necva Bolucu, Stephen Wan, Dadong Wang, Jiahao Xia, Jian Zhang

分类: cs.CV, cs.MM

发布日期: 2026-03-26

备注: Accepted by T-MM


💡 一句话要点

提出SGREC以解决零-shot指代表达理解问题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 零-shot学习 指代表达理解 视觉-语言模型 场景图 多模态融合

📋 核心要点

  1. 现有的视觉-语言模型在零-shot指代表达理解中难以捕捉细粒度的视觉细节和复杂对象关系。
  2. 本文提出SGREC,通过构建查询驱动的场景图来有效连接视觉特征与语言理解,提升理解能力。
  3. SGREC在多个零-shot REC基准测试中表现优异,RefCOCO val达66.78%的准确率,显示出强大的视觉场景理解能力。

📝 摘要(中文)

零-shot指代表达理解(REC)旨在根据自然语言查询在图像中定位目标对象,而无需依赖特定任务的训练数据,这要求强大的视觉理解能力。现有的视觉-语言模型(VLMs)如CLIP,通常通过直接测量文本查询与图像区域之间的特征相似性来解决零-shot REC,但这些方法难以捕捉细粒度的视觉细节和复杂的对象关系。同时,大型语言模型(LLMs)在高层次语义推理方面表现出色,但它们无法直接将视觉特征抽象为文本语义,从而限制了在REC任务中的应用。为克服这些局限性,本文提出了SGREC,一种利用查询驱动的场景图作为结构化中介的可解释零-shot REC方法。通过构建查询驱动的场景图,SGREC有效地连接了低层次的图像区域与LLMs所需的高层次语义理解。

🔬 方法详解

问题定义:本文解决的具体问题是如何在零-shot指代表达理解中有效定位目标对象,现有方法在捕捉细节和理解复杂关系方面存在不足。

核心思路:SGREC的核心思路是利用查询驱动的场景图作为结构化中介,明确编码空间关系、描述性标题和对象交互,从而弥补低层次图像区域与高层次语义理解之间的差距。

技术框架:SGREC的整体架构包括三个主要模块:首先,使用视觉-语言模型构建查询驱动的场景图;其次,利用场景图提供的结构化文本表示;最后,使用大型语言模型进行目标对象的推理和解释。

关键创新:SGREC的主要创新在于引入查询驱动的场景图,这一设计使得模型能够更好地理解复杂的对象关系和空间结构,区别于传统的直接特征相似性测量方法。

关键设计:在技术细节上,SGREC采用了特定的损失函数来优化场景图的构建,并设计了适应性参数设置,以确保模型在不同任务中的泛化能力。通过这种方式,SGREC能够在零-shot环境下实现高效的指代表达理解。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SGREC在多个零-shot REC基准测试中表现突出,RefCOCO val达66.78%的准确率,RefCOCO+ testB为53.43%,RefCOCOg val为73.28%。这些结果表明,SGREC在视觉场景理解方面具有显著优势,超越了现有的基线模型。

🎯 应用场景

该研究的潜在应用领域包括智能助手、自动图像标注和人机交互等场景。通过提高机器对自然语言查询的理解能力,SGREC能够在多模态系统中实现更自然的交互,提升用户体验。未来,该方法可能在自动驾驶、智能监控等领域发挥重要作用。

📄 摘要(原文)

Zero-shot referring expression comprehension (REC) aims to locate target objects in images given natural language queries without relying on task-specific training data, demanding strong visual understanding capabilities. Existing Vision-Language Models~(VLMs), such as CLIP, commonly address zero-shot REC by directly measuring feature similarities between textual queries and image regions. However, these methods struggle to capture fine-grained visual details and understand complex object relationships. Meanwhile, Large Language Models~(LLMs) excel at high-level semantic reasoning, their inability to directly abstract visual features into textual semantics limits their application in REC tasks. To overcome these limitations, we propose \textbf{SGREC}, an interpretable zero-shot REC method leveraging query-driven scene graphs as structured intermediaries. Specifically, we first employ a VLM to construct a query-driven scene graph that explicitly encodes spatial relationships, descriptive captions, and object interactions relevant to the given query. By leveraging this scene graph, we bridge the gap between low-level image regions and higher-level semantic understanding required by LLMs. Finally, an LLM infers the target object from the structured textual representation provided by the scene graph, responding with detailed explanations for its decisions that ensure interpretability in the inference process. Extensive experiments show that SGREC achieves top-1 accuracy on most zero-shot REC benchmarks, including RefCOCO val (66.78\%), RefCOCO+ testB (53.43\%), and RefCOCOg val (73.28\%), highlighting its strong visual scene understanding.