RelWitness: Open-Vocabulary 3D Scene Graph Generation with Visual-Geometric Relation Witnesses

作者: Minh Anh Nguyen, Quang Huy Tran, Bao Ngoc Le, Tuan Kiet Pham, Sui Yang Guang

分类: cs.CV

发布日期: 2026-05-20

💡 一句话要点

提出RelWitness框架，利用视觉几何关系线索解决开放词汇3D场景图生成中的关系标注不完整问题。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 3D场景图生成 开放词汇 关系推理 视觉几何关系 关系见证者

📋 核心要点

现有3D场景图数据集关系标注具有选择性，导致大量有效对象关系未被标注，影响开放词汇场景图生成。
RelWitness利用视觉几何线索作为关系见证，区分未标注关系候选的正负例和不确定情况，从而缓解标注不完整问题。
实验表明，RelWitness能够改善未见关系识别，提高见证精度，降低幻觉，并减少冗余关系短语。

📝 摘要（中文）

本文提出RelWitness，一个用于从带姿态的RGB-D序列中生成开放词汇3D场景图的框架，旨在解决关系标注不完整的问题。核心思想是“关系见证者”，即在捕获的场景中使关系可观察的具体视觉几何线索。例如，支撑关系需要接触和垂直排序；包含关系需要封闭；邻近关系需要度量接近度；方向关系需要朝向；稳定关系应在两个对象都可见的视图中保持一致。RelWitness从RGB视图、深度图、重建的3D几何体、角色敏感文本、对象先验空视图和多视图一致性构建关系见证记录。视觉几何见证验证器将未标注的关系候选分配给已验证的缺失正例、可靠的负例或不确定的未标注情况。然后，在见证引导下，使用正例-未标注目标函数从不完整的标注中学习，而不会将每个缺失标签都变成负例。此外，还引入了见证一致解码和RGB-D缺失关系审计协议。在3DSSG/3RScan和ScanNet导出的开放词汇分割上的模拟手稿规划实验表明，该方法能够改善未见关系识别，提高见证精度，降低幻觉，并减少冗余关系短语。

🔬 方法详解

问题定义：开放词汇3D场景图生成旨在用灵活的自然语言谓词描述对象实例及其关系。现有的3D场景图数据集中的关系标注是不完整的，许多有效的对象对关系未被标注，这导致模型难以学习到全面的关系表示，尤其是在开放词汇场景下，未见过的关系更容易被忽略或错误预测。

核心思路：RelWitness的核心思想是利用“关系见证者”的概念，即通过视觉和几何线索来判断两个对象之间是否存在某种关系。例如，如果两个物体接触且一个在另一个之上，则可以认为存在支撑关系。通过分析RGB-D数据，可以提取这些视觉和几何线索，从而推断出对象之间的关系。这种方法避免了将所有未标注的关系都视为负例，从而更准确地学习关系表示。

技术框架：RelWitness框架主要包含以下几个模块：1) 关系见证记录构建：从RGB视图、深度图、重建的3D几何体、角色敏感文本、对象先验空视图和多视图一致性构建关系见证记录。2) 视觉几何见证验证器：根据构建的见证记录，将未标注的关系候选分配给已验证的缺失正例、可靠的负例或不确定的未标注情况。3) 见证引导的正例-未标注学习：使用正例-未标注目标函数，在见证的指导下，从不完整的标注中学习，避免将每个缺失标签都变成负例。4) 见证一致解码：确保生成的场景图与观察到的视觉几何见证一致。5) RGB-D缺失关系审计协议：用于评估和改进关系预测的准确性。

关键创新：RelWitness的关键创新在于引入了“关系见证者”的概念，并将其应用于开放词汇3D场景图生成。与现有方法不同，RelWitness不依赖于完整的关系标注，而是利用视觉和几何线索来推断对象之间的关系。这种方法能够更好地处理关系标注不完整的问题，并提高未见关系的识别能力。

关键设计：RelWitness的关键设计包括：1) 定义了不同类型关系的视觉几何见证，例如支撑关系需要接触和垂直排序，包含关系需要封闭等。2) 使用多视图一致性来提高关系见证的可靠性。3) 设计了正例-未标注目标函数，以避免将所有未标注的关系都视为负例。4) 引入了见证一致解码，以确保生成的场景图与观察到的视觉几何见证一致。

🖼️ 关键图片

📊 实验亮点

在3DSSG/3RScan和ScanNet导出的开放词汇分割上的模拟手稿规划实验表明，RelWitness能够改善未见关系识别，提高见证精度，降低幻觉，并减少冗余关系短语。这些结果表明，RelWitness能够有效地解决关系标注不完整的问题，并提高开放词汇3D场景图生成的质量。

🎯 应用场景

RelWitness在机器人导航、场景理解、虚拟现实和增强现实等领域具有广泛的应用前景。它可以帮助机器人更好地理解周围环境，从而实现更智能的导航和交互。在虚拟现实和增强现实中，RelWitness可以用于生成更逼真的3D场景，并提供更丰富的用户体验。此外，该技术还可以应用于智能家居、自动驾驶等领域。

📄 摘要（原文）

Open-vocabulary 3D scene graph generation seeks to describe object instances and their relations with flexible natural-language predicates. The central difficulty is not only vocabulary expansion, but supervision reliability: relation annotations in 3D scene graph datasets are selective, and many valid object-pair relations are unannotated. We propose RelWitness, a framework for open-vocabulary 3D scene graph generation from posed RGB-D sequences under incomplete relation supervision. The key concept is a relation witness: a concrete visual-geometric cue that makes a relation observable in the captured scene. Support relations require contact and vertical ordering; containment requires enclosure; proximity requires metric closeness; orientation requires facing direction; and stable relations should persist across views where both objects are visible. RelWitness constructs relation witness records from RGB views, depth maps, reconstructed 3D geometry, role-sensitive text, object-prior null views, and multi-view consistency. A visual-geometric witness verifier assigns unannotated relation candidates to verified missing positives, reliable negatives, or uncertain unlabeled cases. A witness-guided positive-unlabeled objective then learns from incomplete annotations without turning every missing label into a negative. We further introduce witness-consistent decoding and an RGB-D missing-relation audit protocol. Simulated manuscript-planning experiments on 3DSSG/3RScan and ScanNet-derived open-vocabulary splits show the intended behavior: improved unseen-relation recognition, higher witness precision, lower hallucination, and reduced redundant relation phrases. All numerical results are planning values and must be replaced by reproduced measurements before submission

RelWitness: Open-Vocabulary 3D Scene Graph Generation with Visual-Geometric Relation Witnesses

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理