ReLIC-SGG: Relation Lattice Completion for Open-Vocabulary Scene Graph Generation

作者: Amir Hosseini, Sara Farahani, Xinyi Li, Suiyang Guang

分类: cs.CV

发布日期: 2026-04-24

💡 一句话要点

提出ReLIC-SGG框架，解决开放词汇场景图生成中关系不完整问题。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 场景图生成 开放词汇 关系预测 图神经网络 语义关系格

📋 核心要点

现有开放词汇场景图生成方法将未标注关系视为负例，忽略了标注不完整性问题，导致模型性能受限。
ReLIC-SGG将未标注关系视为潜在变量，构建语义关系格建模谓词间的关系，推断缺失的正关系。
实验表明，ReLIC-SGG在多个SGG基准上提高了罕见谓词识别能力，并能更好地恢复缺失关系。

📝 摘要（中文）

开放词汇场景图生成(SGG)旨在用灵活的关系短语描述视觉场景，超越固定的谓词集合。现有方法通常将标注的三元组视为正例，所有未标注的对象对关系视为负例。然而，场景图标注本质上是不完整的：许多有效的关系缺失，并且相同的交互可以用不同的粒度描述，例如 extit{on}、 extit{standing on}、 extit{resting on}和 extit{supported by}。由于更大的关系空间，这个问题在开放词汇SGG中变得更加严重。我们提出了 extbf{ReLIC-SGG}，一个关系不完整性感知框架，它将未标注的关系视为潜在变量，而不是明确的负例。ReLIC-SGG构建了一个语义关系格，以建模开放词汇谓词之间的相似性、蕴含和矛盾，并使用它从视觉-语言兼容性、图上下文和语义一致性中推断缺失的正关系。正-未标注图学习目标进一步减少了假阴性监督，而格引导解码产生紧凑且语义一致的场景图。在传统、开放词汇和全景SGG基准上的实验表明，ReLIC-SGG提高了罕见和未见谓词的识别，并更好地恢复了缺失的关系。

🔬 方法详解

问题定义：开放词汇场景图生成任务旨在生成包含对象和关系信息的场景图，难点在于关系类别开放且标注不完整。现有方法将未标注关系视为负例，忽略了标注中大量存在的假阴性问题，导致模型学习偏差，尤其是在开放词汇场景下，关系类别数量巨大，标注不完整性问题更加严重。

核心思路：ReLIC-SGG的核心思路是将未标注的关系视为潜在变量，而不是直接作为负例。通过构建语义关系格，利用谓词之间的语义关系（如相似性、蕴含和矛盾）来推断缺失的正关系。这种方法能够减少假阴性样本带来的负面影响，提升模型对罕见和未见关系的识别能力。

技术框架：ReLIC-SGG框架主要包含以下几个模块：1) 视觉特征提取模块：提取图像中对象和区域的视觉特征。2) 语义关系格构建模块：构建一个语义关系格，用于建模开放词汇谓词之间的语义关系。3) 关系推断模块：利用视觉-语言兼容性、图上下文和语义一致性，从语义关系格中推断缺失的正关系。4) 正-未标注图学习模块：使用正-未标注图学习目标，进一步减少假阴性监督。5) 格引导解码模块：生成紧凑且语义一致的场景图。

关键创新：ReLIC-SGG的关键创新在于：1) 提出了关系不完整性感知的场景图生成框架，将未标注关系视为潜在变量。2) 构建了语义关系格，用于建模开放词汇谓词之间的语义关系，并用于推断缺失的正关系。3) 采用了正-未标注图学习目标，进一步减少假阴性监督。与现有方法相比，ReLIC-SGG能够更好地处理标注不完整性问题，提升模型对罕见和未见关系的识别能力。

关键设计：语义关系格的构建基于预训练的语言模型（如BERT），通过计算谓词之间的语义相似度来构建格结构。关系推断模块利用图神经网络（GNN）来学习对象之间的关系表示，并结合视觉特征和语义关系格的信息进行关系预测。正-未标注图学习目标采用了一种加权损失函数，对标注的正例赋予更高的权重，对未标注的样本赋予较低的权重，以减少假阴性样本的影响。

🖼️ 关键图片

📊 实验亮点

实验结果表明，ReLIC-SGG在Visual Genome、Open Images V6和Panoptic SGG等数据集上取得了显著的性能提升。尤其是在罕见和未见谓词的识别方面，ReLIC-SGG的性能优于现有方法。例如，在Open Images V6数据集上，ReLIC-SGG在Recall@50指标上取得了显著提升，表明其能够更好地恢复缺失的关系。

🎯 应用场景

ReLIC-SGG在机器人导航、图像检索、视觉问答等领域具有广泛的应用前景。例如，在机器人导航中，更准确的场景图可以帮助机器人理解周围环境，从而做出更合理的决策。在图像检索中，可以根据场景图进行更精确的图像匹配。在视觉问答中，可以利用场景图来更好地理解问题，并给出更准确的答案。该研究有助于提升AI系统对复杂场景的理解能力。

📄 摘要（原文）

Open-vocabulary scene graph generation (SGG) aims to describe visual scenes with flexible relation phrases beyond a fixed predicate set. Existing methods usually treat annotated triplets as positives and all unannotated object-pair relations as negatives. However, scene graph annotations are inherently incomplete: many valid relations are missing, and the same interaction can be described at different granularities, e.g., \textit{on}, \textit{standing on}, \textit{resting on}, and \textit{supported by}. This issue becomes more severe in open-vocabulary SGG due to the much larger relation space. We propose \textbf{ReLIC-SGG}, a relation-incompleteness-aware framework that treats unannotated relations as latent variables rather than definite negatives. ReLIC-SGG builds a semantic relation lattice to model similarity, entailment, and contradiction among open-vocabulary predicates, and uses it to infer missing positive relations from visual-language compatibility, graph context, and semantic consistency. A positive-unlabeled graph learning objective further reduces false-negative supervision, while lattice-guided decoding produces compact and semantically consistent scene graphs. Experiments on conventional, open-vocabulary, and panoptic SGG benchmarks show that ReLIC-SGG improves rare and unseen predicate recognition and better recovers missing relations.

ReLIC-SGG: Relation Lattice Completion for Open-Vocabulary Scene Graph Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理