DGSG-Mind: Dynamic 3D Gaussian Scene Graphs for Long-Term Scene Understanding and Grounding

📄 arXiv: 2605.29879v1 📥 PDF

作者: Luzhou Ge, Xiangyu Zhu, Jinyan Liu, Xuesong Li

分类: cs.CV, cs.RO

发布日期: 2026-05-28

备注: 9 pages, 6 figures

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

DGSG-Mind:用于长期场景理解和定位的动态3D高斯场景图

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 动态场景理解 3D高斯 场景图 具身推理 机器人导航

📋 核心要点

  1. 现有方法在动态场景理解中,实例关联脆弱,难以处理物体拓扑变化,限制了长期机器人任务执行。
  2. DGSG-Mind耦合概率体素网格和显式3D高斯,实现跨模态实例融合和增量语义建图,并利用几何-语义一致性处理动态变化。
  3. 实验表明,DGSG-Mind在零样本3DVG、3D开放词汇语义分割和场景重建方面表现出色,并在真实机器人上验证了其能力。

📝 摘要(中文)

本文提出DGSG-Mind,一个混合实例感知的3D高斯动态场景图系统,配备具身推理代理,旨在解决长期具身场景理解问题。现有方法在不完整的跨视角线索下,实例关联脆弱,且处理物体级拓扑变化的能力有限,阻碍了长期机器人任务的执行。此外,现有3D场景理解方法或依赖于简单的特征匹配而缺乏显式的空间推理,或假设离线的真值3D几何。DGSG-Mind耦合概率体素网格和显式3D高斯,实现鲁棒的跨模态实例融合和增量语义建图。通过基于高斯的视觉重定位和几何-语义一致性引导的局部掩码细化来处理动态变化。在实例高斯图的基础上,DGSG-Mind进一步构建分层场景图,并开发3D高斯Mind,整合结构关系、空间语义信息和视觉标注的RoI高斯渲染,用于多模态推理。实验表明,DGSG-Mind在自重建地图上的零样本3DVG性能最佳,并在3D开放词汇语义分割和场景重建方面表现出色。DGSG-Mind已部署在真实机器人上,展示了其面向目标的推理和动态更新能力。

🔬 方法详解

问题定义:现有动态3D场景理解方法在长期机器人任务中面临挑战,主要体现在:1) 跨视角线索不完整导致实例关联不稳定;2) 无法有效处理物体级别的拓扑结构变化;3) 依赖简单的特征匹配或离线真值3D几何,缺乏有效的空间推理能力。这些问题限制了机器人对动态环境的长期理解和交互能力。

核心思路:DGSG-Mind的核心思路是将概率体素网格与显式3D高斯表示相结合,构建一个混合的、实例感知的动态场景图。通过高斯表示实现精确的几何建模和高效的渲染,同时利用体素网格进行概率融合和场景管理。这种混合表示能够更好地处理跨模态信息融合、动态场景变化和长期场景理解。

技术框架:DGSG-Mind系统包含以下主要模块:1) 实例高斯地图构建:利用概率体素网格和3D高斯进行跨模态实例融合和增量语义建图。2) 动态场景更新:通过基于高斯的视觉重定位和局部掩码细化,处理场景中的动态变化,并保持几何-语义一致性。3) 分层场景图构建:在实例高斯地图的基础上,构建包含结构关系、空间语义信息和视觉信息的层次化场景图。4) 3D高斯Mind:整合场景图中的信息,用于多模态推理和目标导向的任务执行。

关键创新:DGSG-Mind的关键创新在于其混合的3D场景表示方法和动态更新机制。与现有方法相比,DGSG-Mind能够更鲁棒地进行跨模态实例融合,更有效地处理动态场景变化,并提供更丰富的场景信息用于推理。此外,DGSG-Mind通过显式地建模场景中的物体关系,增强了机器人对环境的理解能力。

关键设计:DGSG-Mind的关键设计包括:1) 高斯表示的参数化:使用均值、协方差矩阵等参数来描述3D高斯,用于精确的几何建模。2) 概率体素网格的更新策略:根据观测信息动态更新体素网格中的概率值,用于融合不同视角的观测结果。3) 几何-语义一致性损失函数:用于指导局部掩码细化,确保场景更新过程中几何和语义信息的一致性。4) 场景图的构建规则:定义节点和边的类型,用于表示场景中的物体、关系和属性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DGSG-Mind在3DVG任务上取得了最佳的零样本性能,超越了其他基于自重建地图的方法。此外,在3D开放词汇语义分割和场景重建任务中也表现出强大的性能。在真实机器人上的实验验证了DGSG-Mind在动态环境中的目标导向推理和动态更新能力。

🎯 应用场景

DGSG-Mind在机器人导航、场景理解、增强现实等领域具有广泛的应用前景。它可以帮助机器人在动态环境中进行长期自主导航和交互,提升增强现实应用的真实感和交互性,并为场景理解提供更准确和全面的信息。该研究的成果有助于推动机器人技术和计算机视觉技术的发展。

📄 摘要(原文)

Integrating open-vocabulary semantic information into dynamic 3D scene representations is essential for long-term embodied scene understanding. However, existing methods often suffer from fragile instance association due to incomplete cross-view cues, while their limited ability to handle object-level topological changes restricts long-term robotic task execution. Moreover, current 3D scene understanding methods either rely on simple feature matching without explicit spatial reasoning or assume offline ground-truth 3D geometry. To address these challenges, we present DGSG-Mind, a hybrid instance-aware 3D Gaussian dynamic scene graph system with an embodied reasoning agent. Our system couples a probabilistic voxel grid with explicit 3D Gaussians to enable robust cross-modal instance fusion and incremental semantic mapping. It handles dynamic changes through Gaussian-based visual relocalization and localized masked refinement guided by geometric-semantic consistency. Built on the instance Gaussian map, DGSG-Mind further constructs a hierarchical scene graph and develops the 3D Gaussian Mind, which integrates structural relations, spatial-semantic information, and visually annotated RoI Gaussian renderings for multimodal reasoning. Extensive experiments show that DGSG-Mind achieves the best zero-shot 3DVG performance among methods operating on self-reconstructed maps, while also delivering strong performance in 3D open-vocabulary semantic segmentation and scene reconstruction. We further deploy DGSG-Mind on real-world robots to demonstrate its target-oriented reasoning and dynamic update capabilities. The project page of DGSG-Mind is available at https://icr-lab.github.io/DGSG-Mind