RelWitness: Open-Vocabulary 3D Scene Graph Generation with Visual-Geometric Relation Witnesses

📄 arXiv: 2605.20823v1 📥 PDF

作者: Minh Anh Nguyen, Quang Huy Tran, Bao Ngoc Le, Tuan Kiet Pham, Sui Yang Guang

分类: cs.CV

发布日期: 2026-05-20


💡 一句话要点

提出RelWitness框架,利用视觉几何关系线索解决开放词汇3D场景图生成中的关系标注不完整问题。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D场景图生成 开放词汇 关系推理 视觉几何关系 关系见证者

📋 核心要点

  1. 现有3D场景图数据集关系标注具有选择性,导致大量有效对象关系未被标注,影响开放词汇场景图生成。
  2. RelWitness利用视觉几何线索作为关系见证,区分未标注关系候选的正负例和不确定情况,从而缓解标注不完整问题。
  3. 实验表明,RelWitness能够改善未见关系识别,提高见证精度,降低幻觉,并减少冗余关系短语。

📝 摘要(中文)

本文提出RelWitness,一个用于从带姿态的RGB-D序列中生成开放词汇3D场景图的框架,旨在解决关系标注不完整的问题。核心思想是“关系见证者”,即在捕获的场景中使关系可观察的具体视觉几何线索。例如,支撑关系需要接触和垂直排序;包含关系需要封闭;邻近关系需要度量接近度;方向关系需要朝向;稳定关系应在两个对象都可见的视图中保持一致。RelWitness从RGB视图、深度图、重建的3D几何体、角色敏感文本、对象先验空视图和多视图一致性构建关系见证记录。视觉几何见证验证器将未标注的关系候选分配给已验证的缺失正例、可靠的负例或不确定的未标注情况。然后,在见证引导下,使用正例-未标注目标函数从不完整的标注中学习,而不会将每个缺失标签都变成负例。此外,还引入了见证一致解码和RGB-D缺失关系审计协议。在3DSSG/3RScan和ScanNet导出的开放词汇分割上的模拟手稿规划实验表明,该方法能够改善未见关系识别,提高见证精度,降低幻觉,并减少冗余关系短语。

🔬 方法详解

问题定义:开放词汇3D场景图生成旨在用灵活的自然语言谓词描述对象实例及其关系。现有的3D场景图数据集中的关系标注是不完整的,许多有效的对象对关系未被标注,这导致模型难以学习到全面的关系表示,尤其是在开放词汇场景下,未见过的关系更容易被忽略或错误预测。

核心思路:RelWitness的核心思想是利用“关系见证者”的概念,即通过视觉和几何线索来判断两个对象之间是否存在某种关系。例如,如果两个物体接触且一个在另一个之上,则可以认为存在支撑关系。通过分析RGB-D数据,可以提取这些视觉和几何线索,从而推断出对象之间的关系。这种方法避免了将所有未标注的关系都视为负例,从而更准确地学习关系表示。

技术框架:RelWitness框架主要包含以下几个模块:1) 关系见证记录构建:从RGB视图、深度图、重建的3D几何体、角色敏感文本、对象先验空视图和多视图一致性构建关系见证记录。2) 视觉几何见证验证器:根据构建的见证记录,将未标注的关系候选分配给已验证的缺失正例、可靠的负例或不确定的未标注情况。3) 见证引导的正例-未标注学习:使用正例-未标注目标函数,在见证的指导下,从不完整的标注中学习,避免将每个缺失标签都变成负例。4) 见证一致解码:确保生成的场景图与观察到的视觉几何见证一致。5) RGB-D缺失关系审计协议:用于评估和改进关系预测的准确性。

关键创新:RelWitness的关键创新在于引入了“关系见证者”的概念,并将其应用于开放词汇3D场景图生成。与现有方法不同,RelWitness不依赖于完整的关系标注,而是利用视觉和几何线索来推断对象之间的关系。这种方法能够更好地处理关系标注不完整的问题,并提高未见关系的识别能力。

关键设计:RelWitness的关键设计包括:1) 定义了不同类型关系的视觉几何见证,例如支撑关系需要接触和垂直排序,包含关系需要封闭等。2) 使用多视图一致性来提高关系见证的可靠性。3) 设计了正例-未标注目标函数,以避免将所有未标注的关系都视为负例。4) 引入了见证一致解码,以确保生成的场景图与观察到的视觉几何见证一致。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

在3DSSG/3RScan和ScanNet导出的开放词汇分割上的模拟手稿规划实验表明,RelWitness能够改善未见关系识别,提高见证精度,降低幻觉,并减少冗余关系短语。这些结果表明,RelWitness能够有效地解决关系标注不完整的问题,并提高开放词汇3D场景图生成的质量。

🎯 应用场景

RelWitness在机器人导航、场景理解、虚拟现实和增强现实等领域具有广泛的应用前景。它可以帮助机器人更好地理解周围环境,从而实现更智能的导航和交互。在虚拟现实和增强现实中,RelWitness可以用于生成更逼真的3D场景,并提供更丰富的用户体验。此外,该技术还可以应用于智能家居、自动驾驶等领域。

📄 摘要(原文)

Open-vocabulary 3D scene graph generation seeks to describe object instances and their relations with flexible natural-language predicates. The central difficulty is not only vocabulary expansion, but supervision reliability: relation annotations in 3D scene graph datasets are selective, and many valid object-pair relations are unannotated. We propose RelWitness, a framework for open-vocabulary 3D scene graph generation from posed RGB-D sequences under incomplete relation supervision. The key concept is a relation witness: a concrete visual-geometric cue that makes a relation observable in the captured scene. Support relations require contact and vertical ordering; containment requires enclosure; proximity requires metric closeness; orientation requires facing direction; and stable relations should persist across views where both objects are visible. RelWitness constructs relation witness records from RGB views, depth maps, reconstructed 3D geometry, role-sensitive text, object-prior null views, and multi-view consistency. A visual-geometric witness verifier assigns unannotated relation candidates to verified missing positives, reliable negatives, or uncertain unlabeled cases. A witness-guided positive-unlabeled objective then learns from incomplete annotations without turning every missing label into a negative. We further introduce witness-consistent decoding and an RGB-D missing-relation audit protocol. Simulated manuscript-planning experiments on 3DSSG/3RScan and ScanNet-derived open-vocabulary splits show the intended behavior: improved unseen-relation recognition, higher witness precision, lower hallucination, and reduced redundant relation phrases. All numerical results are planning values and must be replaced by reproduced measurements before submission