ReLIC-SGG: Relation Lattice Completion for Open-Vocabulary Scene Graph Generation
作者: Amir Hosseini, Sara Farahani, Xinyi Li, Suiyang Guang
分类: cs.CV
发布日期: 2026-04-24
💡 一句话要点
提出ReLIC-SGG框架,解决开放词汇场景图生成中关系不完整问题。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 场景图生成 开放词汇 关系预测 图神经网络 语义关系格
📋 核心要点
- 现有开放词汇场景图生成方法将未标注关系视为负例,忽略了标注不完整性问题,导致模型性能受限。
- ReLIC-SGG将未标注关系视为潜在变量,构建语义关系格建模谓词间的关系,推断缺失的正关系。
- 实验表明,ReLIC-SGG在多个SGG基准上提高了罕见谓词识别能力,并能更好地恢复缺失关系。
📝 摘要(中文)
开放词汇场景图生成(SGG)旨在用灵活的关系短语描述视觉场景,超越固定的谓词集合。现有方法通常将标注的三元组视为正例,所有未标注的对象对关系视为负例。然而,场景图标注本质上是不完整的:许多有效的关系缺失,并且相同的交互可以用不同的粒度描述,例如 extit{on}、 extit{standing on}、 extit{resting on}和 extit{supported by}。由于更大的关系空间,这个问题在开放词汇SGG中变得更加严重。我们提出了 extbf{ReLIC-SGG},一个关系不完整性感知框架,它将未标注的关系视为潜在变量,而不是明确的负例。ReLIC-SGG构建了一个语义关系格,以建模开放词汇谓词之间的相似性、蕴含和矛盾,并使用它从视觉-语言兼容性、图上下文和语义一致性中推断缺失的正关系。正-未标注图学习目标进一步减少了假阴性监督,而格引导解码产生紧凑且语义一致的场景图。在传统、开放词汇和全景SGG基准上的实验表明,ReLIC-SGG提高了罕见和未见谓词的识别,并更好地恢复了缺失的关系。
🔬 方法详解
问题定义:开放词汇场景图生成任务旨在生成包含对象和关系信息的场景图,难点在于关系类别开放且标注不完整。现有方法将未标注关系视为负例,忽略了标注中大量存在的假阴性问题,导致模型学习偏差,尤其是在开放词汇场景下,关系类别数量巨大,标注不完整性问题更加严重。
核心思路:ReLIC-SGG的核心思路是将未标注的关系视为潜在变量,而不是直接作为负例。通过构建语义关系格,利用谓词之间的语义关系(如相似性、蕴含和矛盾)来推断缺失的正关系。这种方法能够减少假阴性样本带来的负面影响,提升模型对罕见和未见关系的识别能力。
技术框架:ReLIC-SGG框架主要包含以下几个模块:1) 视觉特征提取模块:提取图像中对象和区域的视觉特征。2) 语义关系格构建模块:构建一个语义关系格,用于建模开放词汇谓词之间的语义关系。3) 关系推断模块:利用视觉-语言兼容性、图上下文和语义一致性,从语义关系格中推断缺失的正关系。4) 正-未标注图学习模块:使用正-未标注图学习目标,进一步减少假阴性监督。5) 格引导解码模块:生成紧凑且语义一致的场景图。
关键创新:ReLIC-SGG的关键创新在于:1) 提出了关系不完整性感知的场景图生成框架,将未标注关系视为潜在变量。2) 构建了语义关系格,用于建模开放词汇谓词之间的语义关系,并用于推断缺失的正关系。3) 采用了正-未标注图学习目标,进一步减少假阴性监督。与现有方法相比,ReLIC-SGG能够更好地处理标注不完整性问题,提升模型对罕见和未见关系的识别能力。
关键设计:语义关系格的构建基于预训练的语言模型(如BERT),通过计算谓词之间的语义相似度来构建格结构。关系推断模块利用图神经网络(GNN)来学习对象之间的关系表示,并结合视觉特征和语义关系格的信息进行关系预测。正-未标注图学习目标采用了一种加权损失函数,对标注的正例赋予更高的权重,对未标注的样本赋予较低的权重,以减少假阴性样本的影响。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ReLIC-SGG在Visual Genome、Open Images V6和Panoptic SGG等数据集上取得了显著的性能提升。尤其是在罕见和未见谓词的识别方面,ReLIC-SGG的性能优于现有方法。例如,在Open Images V6数据集上,ReLIC-SGG在Recall@50指标上取得了显著提升,表明其能够更好地恢复缺失的关系。
🎯 应用场景
ReLIC-SGG在机器人导航、图像检索、视觉问答等领域具有广泛的应用前景。例如,在机器人导航中,更准确的场景图可以帮助机器人理解周围环境,从而做出更合理的决策。在图像检索中,可以根据场景图进行更精确的图像匹配。在视觉问答中,可以利用场景图来更好地理解问题,并给出更准确的答案。该研究有助于提升AI系统对复杂场景的理解能力。
📄 摘要(原文)
Open-vocabulary scene graph generation (SGG) aims to describe visual scenes with flexible relation phrases beyond a fixed predicate set. Existing methods usually treat annotated triplets as positives and all unannotated object-pair relations as negatives. However, scene graph annotations are inherently incomplete: many valid relations are missing, and the same interaction can be described at different granularities, e.g., \textit{on}, \textit{standing on}, \textit{resting on}, and \textit{supported by}. This issue becomes more severe in open-vocabulary SGG due to the much larger relation space. We propose \textbf{ReLIC-SGG}, a relation-incompleteness-aware framework that treats unannotated relations as latent variables rather than definite negatives. ReLIC-SGG builds a semantic relation lattice to model similarity, entailment, and contradiction among open-vocabulary predicates, and uses it to infer missing positive relations from visual-language compatibility, graph context, and semantic consistency. A positive-unlabeled graph learning objective further reduces false-negative supervision, while lattice-guided decoding produces compact and semantically consistent scene graphs. Experiments on conventional, open-vocabulary, and panoptic SGG benchmarks show that ReLIC-SGG improves rare and unseen predicate recognition and better recovers missing relations.