Hierarchical and Holistic Open-Vocabulary Functional 3D Scene Graphs for Indoor Spaces
作者: Xinggang Hu, Chenyangguang Zhang, Alexandros Delitzas, Xiangkui Zhang, Marc Pollefeys, Francis Engelmann, Xiangyang Ji
分类: cs.RO, cs.CV
发布日期: 2026-05-15
💡 一句话要点
提出一种分层和整体的开放词汇功能性3D场景图方法,用于理解室内空间。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 功能性3D场景图 场景理解 机器人操作 视觉Grounding 图优化
📋 核心要点
- 现有功能性3D场景图构建方法在处理小物体、密集场景和分层关系方面存在不足,限制了其应用。
- 该论文提出一种基于2D视觉grounding和3D图优化的开放词汇pipeline,解决小物体、关系推理和跨帧融合等问题。
- 实验结果表明,该方法能够可靠地推断复杂真实场景中的功能性3D场景图,提升了场景理解能力。
📝 摘要(中文)
功能性3D场景图为3D场景理解和机器人操作提供了一种通用且灵活的表示方法,它由对象节点、交互元素和功能关系边定义。然而,由于现有基准测试覆盖范围有限以及先前pipeline设计过于简单(主要关注大型家具而缺乏分层结构),其潜力尚未得到充分挖掘。因此,本文通过引入密集的桌面物体和显式的多层次功能关系来扩展基准测试的覆盖范围。这种扩展带来了关键挑战,包括小规模、密集和相似的实例,关系推理中缺乏视觉锚定,跨帧融合期间的实例混淆,以及动态视角下的归属不确定性。为了解决这些问题,我们提出了一种基于2D视觉grounding和3D图优化的开放词汇pipeline。具体来说,我们从2D视觉证据中锚定细粒度的功能边,并使用多个线索在3D中关联跨帧的节点。此外,边缘关联被公式化为时间图优化,整合了证据累积、熵正则化和时间平滑,以稳健地确定每个节点的功能连接。最后,执行全局层次结构塑造以恢复分层图结构。大量实验表明,所提出的方法可以可靠地推断具有挑战性的真实场景中的功能性3D场景图,从而进一步释放其在实际应用中的潜力。
🔬 方法详解
问题定义:现有方法在构建功能性3D场景图时,主要关注大型家具,缺乏对桌面等小物体以及物体间复杂功能关系的建模能力。此外,在处理动态视角和跨帧数据时,容易出现实例混淆和关系归属不确定性等问题。这些问题限制了功能性3D场景图在机器人操作等实际应用中的潜力。
核心思路:论文的核心思路是利用2D视觉信息作为锚点,辅助3D场景图的构建和优化。通过2D视觉grounding,可以更准确地识别小物体和建立物体间的功能关系。同时,采用图优化方法,整合时间信息和多种线索,提高跨帧数据关联的鲁棒性,并解决关系归属不确定性问题。
技术框架:该pipeline主要包含以下几个阶段:1) 2D视觉grounding:利用开放词汇模型识别图像中的物体,并建立物体间的功能关系。2) 3D节点关联:使用多种线索(如视觉特征、几何信息等)将跨帧的2D检测结果关联到3D节点。3) 时间图优化:将边缘关联问题建模为时间图优化问题,通过证据累积、熵正则化和时间平滑等方法,确定节点间的功能连接。4) 全局层次结构塑造:恢复场景图中物体之间的层次关系,例如“物体在桌子上”等。
关键创新:该论文的关键创新在于:1) 引入了2D视觉grounding作为3D场景图构建的先验信息,提高了小物体和复杂关系的识别精度。2) 将边缘关联问题建模为时间图优化问题,并设计了相应的优化目标,提高了跨帧数据关联的鲁棒性。3) 提出了全局层次结构塑造方法,恢复了场景图中物体之间的层次关系。
关键设计:在时间图优化中,使用了证据累积来增强对稳定关系的识别,使用熵正则化来鼓励关系预测的确定性,并使用时间平滑来保证关系在时间上的连续性。具体的损失函数设计和参数设置在论文中有详细描述(未知)。
🖼️ 关键图片
📊 实验亮点
论文通过大量实验验证了所提出方法的有效性。实验结果表明,该方法能够显著提高功能性3D场景图的构建精度,尤其是在处理小物体、密集场景和复杂关系方面。具体的性能数据和对比基线在论文中有详细描述(未知),但摘要表明该方法在具有挑战性的真实场景中表现良好。
🎯 应用场景
该研究成果可应用于机器人操作、智能家居、虚拟现实等领域。例如,机器人可以利用功能性3D场景图理解室内环境,从而执行更复杂的任务,如物体抓取、场景导航等。在智能家居中,可以利用该技术实现更智能的场景理解和控制。在虚拟现实中,可以构建更逼真的虚拟环境,并支持更自然的交互。
📄 摘要(原文)
Functional 3D scene graphs offer a versatile and flexible representation for 3D scene understanding and robotic manipulation, defined by object nodes, interactive elements, and functional relationship edges. However, their potential remains underexplored due to the limited coverage of existing benchmarks and the overly straightforward design of previous pipelines, which primarily focus on large-scale furniture but lack of hierarchical structures. Therefore, in this work, we extend the benchmark coverage by introducing dense tabletop objects and explicit multi-level functional relationships. This expansion introduces critical challenges involving small-scale, dense, and similar instances, with lack of visual anchoring in relational reasoning, instance confusion during cross-frame fusion, and attribution uncertainty under dynamic viewpoints. To address these issues, we propose an open-vocabulary pipeline based on 2D visual grounding and 3D graph optimization. Specifically, we anchor fine-grained functional edges from 2D visual evidence, and associate nodes across frames in 3D using multiple cues. Furthermore, edge association is formulated as temporal graph optimization, integrating evidence accumulation, entropy regularization, and temporal smoothing to robustly determine the functional connections of each node. Finally, global hierarchy shaping is performed to recover the hierarchical graph structure. Extensive experiments demonstrate that the proposed method can reliably infer functional 3D scene graphs in challenging real-world scenes, thereby further unlocking their potential for practical applications.