FunFact: Building Probabilistic Functional 3D Scene Graphs via Factor-Graph Reasoning

📄 arXiv: 2604.03696 📥 PDF

作者: Zhengyu Fu, René Zurbrügg, Kaixian Qu, Marc Pollefeys, Marco Hutter, Hermann Blum, Zuria Bauer

分类: cs.CV

发布日期: 2026-04-07


💡 一句话要点

FunFact:构建基于因子图推理的概率功能性3D场景图

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 功能性场景理解 3D场景图 因子图推理 概率建模 常识推理

📋 核心要点

  1. 现有3D场景理解方法孤立地考虑物体对之间的功能关系,忽略了场景范围内的依赖性。
  2. FunFact框架通过因子图推理,结合LLM常识和几何先验,实现功能关系的联合概率推理。
  3. 实验表明,FunFact在节点和关系发现方面提高了召回率,并降低了模糊关系的校准误差。

📝 摘要(中文)

本文提出FunFact,一个从带位姿的RGB-D图像构建概率开放词汇功能性3D场景图的框架。FunFact首先构建一个以物体和部件为中心的3D地图,并利用基础模型提出语义上合理的功能关系。这些候选关系被转化为因子图变量,并受到LLM导出的常识先验和几何先验的约束。这种公式化能够对所有功能边及其边缘概率进行联合概率推理,从而产生校准得更好的置信度分数。为了评估这种设置,我们引入了FunThor,一个基于AI2-THOR的合成数据集,具有部件级几何和基于规则的功能注释。在SceneFun3D、FunGraph3D和FunThor上的实验表明,FunFact提高了节点和关系发现的召回率,并显著降低了模糊关系的校准误差,突出了整体概率建模对功能性场景理解的益处。

🔬 方法详解

问题定义:现有方法在进行3D场景的功能理解时,通常只关注物体对之间的孤立关系,缺乏对整个场景上下文的理解。这种孤立的处理方式导致无法有效利用场景中物体之间的相互依赖性,从而影响了功能关系识别的准确性和鲁棒性。尤其是在存在歧义的情况下,这种问题会更加突出。

核心思路:FunFact的核心思路是将功能性3D场景理解问题建模为一个概率推理问题,并利用因子图来表示场景中物体、部件以及它们之间的功能关系。通过引入LLM导出的常识先验和几何先验,对候选的功能关系进行约束,从而实现对所有功能边及其边缘概率的联合概率推理。这种整体建模方法能够更好地利用场景上下文信息,从而提高功能关系识别的准确性和鲁棒性。

技术框架:FunFact框架主要包含以下几个阶段:1) 3D地图构建:利用RGB-D图像构建以物体和部件为中心的3D地图。2) 功能关系提议:利用基础模型(Foundation Models)提出语义上合理的功能关系候选。3) 因子图构建:将候选的功能关系转化为因子图中的变量,并添加LLM常识先验和几何先验作为约束。4) 概率推理:在因子图上进行联合概率推理,计算所有功能边的边缘概率。

关键创新:FunFact的关键创新在于其将功能性3D场景理解问题建模为一个整体的概率推理问题,并利用因子图来表示场景中的物体、部件以及它们之间的功能关系。与现有方法相比,FunFact能够更好地利用场景上下文信息,从而提高功能关系识别的准确性和鲁棒性。此外,FunFact还引入了LLM导出的常识先验,进一步提高了功能关系识别的可靠性。

关键设计:FunFact的关键设计包括:1) 使用基础模型(Foundation Models)来生成功能关系候选,这使得FunFact能够处理开放词汇的功能关系。2) 利用LLM导出的常识先验来约束候选的功能关系,这提高了功能关系识别的可靠性。3) 使用因子图进行联合概率推理,这使得FunFact能够更好地利用场景上下文信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

FunFact在SceneFun3D、FunGraph3D和FunThor数据集上进行了评估。实验结果表明,FunFact提高了节点和关系发现的召回率,并显著降低了模糊关系的校准误差。具体来说,FunFact在模糊关系上的校准误差降低了显著幅度,证明了整体概率建模在功能性场景理解中的优势。

🎯 应用场景

FunFact在机器人导航、场景理解、人机交互等领域具有广泛的应用前景。例如,机器人可以利用FunFact理解场景中物体之间的功能关系,从而更好地完成任务,如根据场景中的物体摆放推断出最佳的烹饪流程。该研究有助于提升机器人对环境的理解能力,使其能够更智能、更安全地与人类进行交互。

📄 摘要(原文)

Recent work in 3D scene understanding is moving beyond purely spatial analysis toward functional scene understanding. However, existing methods often consider functional relationships between object pairs in isolation, failing to capture the scene-wide interdependence that humans use to resolve ambiguity. We introduce FunFact, a framework for constructing probabilistic open-vocabulary functional 3D scene graphs from posed RGB-D images. FunFact first builds an object- and part-centric 3D map and uses foundation models to propose semantically plausible functional relations. These candidates are converted into factor graph variables and constrained by both LLM-derived common-sense priors and geometric priors. This formulation enables joint probabilistic inference over all functional edges and their marginals, yielding substantially better calibrated confidence scores. To benchmark this setting, we introduce FunThor, a synthetic dataset based on AI2-THOR with part-level geometry and rule-based functional annotations. Experiments on SceneFun3D, FunGraph3D, and FunThor show that FunFact improves node and relation discovery recall and significantly reduces calibration error for ambiguous relations, highlighting the benefits of holistic probabilistic modeling for functional scene understanding. See our project page atthis https URL