RGB-only Active 3D Scene Graph Generation for Indoor Mobile Robots

📄 arXiv: 2605.18197v1 📥 PDF

作者: Giorgia Modi, Davide Buoso, Giuseppe Averta, Daniele De Martini

分类: cs.RO, cs.AI, cs.CV

发布日期: 2026-05-18


💡 一句话要点

提出一种仅使用RGB图像的主动3D场景图生成方法,用于室内移动机器人。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D场景图生成 主动探索 RGB图像 室内机器人 语义SLAM

📋 核心要点

  1. 现有3D场景图生成方法依赖深度传感器,限制了其在仅有RGB相机的场景中的应用。
  2. 该论文提出了一种仅使用RGB图像的主动式3D场景图构建框架,融合感知和规划。
  3. 实验表明,该方法在Replica数据集上可与使用深度信息的基线方法媲美,且主动探索性能更优。

📝 摘要(中文)

本文提出了一种完全基于视觉的框架,用于仅从RGB输入主动、增量地构建3D场景图,克服了现有方法依赖深度传感器和被动观测轨迹的局限性。该方法统一了感知和规划,围绕一个共享的结构化表示,捕捉物体语义、3D几何、关系上下文以及来自多个视点的信息。该框架与硬件无关,仅依赖RGB观测,因此可以整合来自机器人载板相机和固定外部相机的输入。在Replica数据集上的实验表明,仅使用RGB的流程实现了与使用ground-truth深度信息的基线方法相当的F1分数。在ReplicaCAD上的主动探索实验表明,在相同的探索预算下,语义驱动的视点选择比基于几何边界的基线方法检测到的物体数量多两倍以上。最后,外部相机设置表明,互补的RGB视图可以有效地引导场景图,并在不增加额外探索成本的情况下提高上下文理解。

🔬 方法详解

问题定义:现有3D场景图生成方法通常依赖于LiDAR或RGB-D相机等深度传感器进行3D重建,这限制了它们在只有RGB相机的机器人平台或固定外部基础设施等场景中的部署。此外,现有的流程通常在被动收集的观测轨迹上运行,而不是基于部分构建的场景表示来选择视点,因此无法有效地利用探索过程中场景图编码的语义和空间信息。

核心思路:本文的核心思路是构建一个完全基于RGB图像的3D场景图生成框架,并通过主动探索策略来优化场景图的构建过程。该框架通过统一感知和规划,利用场景图中编码的语义和空间信息来指导视点的选择,从而更有效地探索环境并构建更完整的场景图。

技术框架:该框架包含以下主要模块:1) RGB图像输入;2) 基于RGB图像的语义分割和物体检测;3) 3D场景图构建,将检测到的物体表示为节点,物体之间的关系表示为边;4) 主动探索策略,基于场景图中的语义和空间信息选择下一个最佳视点;5) 场景图更新,将新的观测结果整合到场景图中。整个流程是增量式的,随着机器人探索环境,场景图不断完善。

关键创新:该论文最重要的技术创新点在于提出了一种完全基于RGB图像的主动3D场景图生成方法。与现有方法相比,该方法无需深度传感器,可以在更广泛的场景中应用。此外,主动探索策略能够更有效地利用场景图中的信息,提高场景图的构建效率和完整性。

关键设计:主动探索策略是该框架的关键设计之一。该策略基于场景图中已知的物体语义和空间信息,选择能够最大程度地增加场景图信息量的视点。具体的实现方式可能包括:选择能够观测到最多未知物体的视点,或者选择能够更好地理解物体之间关系的视点。此外,损失函数的设计也至关重要,需要平衡场景图的完整性和准确性。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,该方法在Replica数据集上实现了与使用ground-truth深度信息的基线方法相当的F1分数。在ReplicaCAD上的主动探索实验表明,在相同的探索预算下,语义驱动的视点选择比基于几何边界的基线方法检测到的物体数量多两倍以上。此外,外部相机设置验证了互补RGB视图在引导场景图构建和提高上下文理解方面的有效性。

🎯 应用场景

该研究成果可应用于室内移动机器人的自主导航、环境理解和人机交互等领域。例如,机器人可以利用场景图进行路径规划、目标搜索和物体操作。此外,该方法还可以应用于智能家居、虚拟现实和增强现实等领域,为用户提供更智能、更沉浸式的体验。

📄 摘要(原文)

Current approaches to 3D scene graph generation rely on dedicated depth sensors, such as LiDAR or RGB-D cameras, for metric 3D reconstruction. This limits deployment to specialized robotic platforms and excludes settings where only RGB cameras are available, such as fixed external infrastructure. Existing pipelines also typically operate on passively collected observation trajectories, rather than selecting viewpoints based on the partially built scene representation, and therefore fail to effectively exploit the semantic and spatial information encoded within the graph during exploration. This paper presents a fully visual framework for the active, incremental construction of 3D scene graphs from RGB input only, addressing both limitations. The proposed approach unifies perception and planning around a shared structured representation that captures object semantics, 3D geometry, relational context, and information from multiple viewpoints. Because the framework is hardware-agnostic and relies only on RGB observations, it can incorporate inputs from both onboard robot cameras and fixed external cameras within the same representation. Experiments on the Replica dataset show that the RGB-only pipeline achieves F1-score parity with baselines using ground-truth depth. Active exploration experiments on ReplicaCAD further show that semantic-driven viewpoint selection detects more than twice as many objects as a geometric frontier-based baseline under the same exploration budget. Finally, the external-camera setting demonstrates that complementary RGB views can effectively bootstrap the scene graph and improve contextual understanding at no additional exploration cost.