From Data to Modeling: Fully Open-vocabulary Scene Graph Generation

📄 arXiv: 2505.20106v1 📥 PDF

作者: Zuyao Chen, Jinlin Wu, Zhen Lei, Chang Wen Chen

分类: cs.CV

发布日期: 2025-05-26


💡 一句话要点

提出OvSGTR,实现完全开放词汇场景图生成,突破传统闭集限制。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 场景图生成 开放词汇学习 Transformer 关系感知预训练 知识蒸馏

📋 核心要点

  1. 现有场景图生成方法受限于固定词汇表,无法识别新概念,限制了其在真实场景中的应用。
  2. OvSGTR通过Transformer架构联合预测对象和关系,并采用关系感知预训练策略,提升模型对复杂关系的理解。
  3. 在VG150数据集上的实验表明,OvSGTR在多种场景设置下均取得了领先的性能,验证了其有效性。

📝 摘要(中文)

本文提出了一种新颖的基于Transformer的框架OvSGTR,用于完全开放词汇场景图生成,克服了传统闭集模型的局限性。传统方法将对象和关系识别限制在固定的词汇表内,阻碍了它们在真实世界场景中的应用,因为真实世界场景中经常出现新的概念。相反,我们的方法联合预测对象(节点)及其超出预定义类别的相互关系(边)。OvSGTR利用类似DETR的架构,采用冻结的图像骨干网络和文本编码器来提取高质量的视觉和语义特征,然后通过Transformer解码器融合这些特征,实现端到端的场景图预测。为了丰富模型对复杂视觉关系的理解,我们提出了一种关系感知的预训练策略,以弱监督的方式合成场景图注释。具体来说,我们研究了三种pipeline——基于场景解析器、基于LLM和基于多模态LLM——以生成可迁移的监督信号,且只需最少的人工标注。此外,我们通过结合视觉概念保留机制和知识蒸馏策略,解决了开放词汇设置中常见的灾难性遗忘问题,确保模型在微调过程中保留丰富的语义线索。在VG150基准上的大量实验表明,OvSGTR在包括闭集、基于开放词汇对象检测、基于关系和完全开放词汇场景等多种设置下,均实现了最先进的性能。我们的结果突出了大规模关系感知预训练和Transformer架构在推动场景图生成朝着更通用和可靠的视觉理解方向发展的潜力。

🔬 方法详解

问题定义:现有场景图生成方法通常采用闭集设定,即预先定义好对象和关系的类别。这种设定无法处理真实世界中不断涌现的新概念,限制了模型的泛化能力。因此,需要一种能够处理开放词汇的场景图生成方法,能够识别和理解未知的对象和关系。

核心思路:OvSGTR的核心思路是利用Transformer架构的强大表示能力,结合视觉和语义信息,实现端到端的开放词汇场景图生成。通过关系感知的预训练策略,模型能够学习到丰富的视觉关系知识,从而更好地理解和预测场景中的对象和关系。同时,采用视觉概念保留机制和知识蒸馏策略,缓解了开放词汇场景下的灾难性遗忘问题。

技术框架:OvSGTR的整体架构类似于DETR,包含以下主要模块:1) 冻结的图像骨干网络,用于提取图像的视觉特征;2) 文本编码器,用于提取对象和关系的语义特征;3) Transformer解码器,用于融合视觉和语义特征,并预测场景图中的对象和关系。此外,还包括关系感知的预训练模块和视觉概念保留模块。

关键创新:OvSGTR的关键创新在于:1) 实现了完全开放词汇的场景图生成,突破了传统闭集设定的限制;2) 提出了关系感知的预训练策略,利用弱监督数据提升模型对复杂关系的理解;3) 采用了视觉概念保留机制和知识蒸馏策略,有效缓解了开放词汇场景下的灾难性遗忘问题。

关键设计:关系感知的预训练策略通过三种pipeline(基于场景解析器、基于LLM和基于多模态LLM)生成弱监督的场景图注释。视觉概念保留机制通过保留历史模型的知识,防止模型在微调过程中遗忘已学习的概念。知识蒸馏策略利用历史模型的输出作为软标签,指导当前模型的训练。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OvSGTR在VG150数据集上取得了显著的性能提升。在完全开放词汇场景下,OvSGTR的性能优于现有方法。例如,在关系预测任务上,OvSGTR相比于基线方法取得了显著的提升。实验结果表明,关系感知的预训练策略和视觉概念保留机制能够有效提升模型的性能。

🎯 应用场景

该研究成果可应用于智能监控、自动驾驶、图像检索、机器人导航等领域。通过生成更全面、准确的场景图,可以提升机器对环境的理解能力,从而实现更智能化的决策和控制。未来,该技术有望在虚拟现实、增强现实等领域发挥重要作用。

📄 摘要(原文)

We present OvSGTR, a novel transformer-based framework for fully open-vocabulary scene graph generation that overcomes the limitations of traditional closed-set models. Conventional methods restrict both object and relationship recognition to a fixed vocabulary, hindering their applicability to real-world scenarios where novel concepts frequently emerge. In contrast, our approach jointly predicts objects (nodes) and their inter-relationships (edges) beyond predefined categories. OvSGTR leverages a DETR-like architecture featuring a frozen image backbone and text encoder to extract high-quality visual and semantic features, which are then fused via a transformer decoder for end-to-end scene graph prediction. To enrich the model's understanding of complex visual relations, we propose a relation-aware pre-training strategy that synthesizes scene graph annotations in a weakly supervised manner. Specifically, we investigate three pipelines--scene parser-based, LLM-based, and multimodal LLM-based--to generate transferable supervision signals with minimal manual annotation. Furthermore, we address the common issue of catastrophic forgetting in open-vocabulary settings by incorporating a visual-concept retention mechanism coupled with a knowledge distillation strategy, ensuring that the model retains rich semantic cues during fine-tuning. Extensive experiments on the VG150 benchmark demonstrate that OvSGTR achieves state-of-the-art performance across multiple settings, including closed-set, open-vocabulary object detection-based, relation-based, and fully open-vocabulary scenarios. Our results highlight the promise of large-scale relation-aware pre-training and transformer architectures for advancing scene graph generation towards more generalized and reliable visual understanding.