DGSG-Mind: Dynamic 3D Gaussian Scene Graphs for Long-Term Scene Understanding and Grounding

作者: Luzhou Ge, Xiangyu Zhu, Jinyan Liu, Xuesong Li

分类: cs.CV, cs.RO

发布日期: 2026-05-28

备注: 9 pages, 6 figures

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

DGSG-Mind：用于长期场景理解和定位的动态3D高斯场景图

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱六：视频提取与匹配 (Video Extraction) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 动态场景理解 3D高斯 场景图 具身推理 机器人导航

📋 核心要点

现有方法在动态场景理解中，实例关联脆弱，难以处理物体拓扑变化，限制了长期机器人任务执行。
DGSG-Mind耦合概率体素网格和显式3D高斯，实现跨模态实例融合和增量语义建图，并利用几何-语义一致性处理动态变化。
实验表明，DGSG-Mind在零样本3DVG、3D开放词汇语义分割和场景重建方面表现出色，并在真实机器人上验证了其能力。

📝 摘要（中文）

本文提出DGSG-Mind，一个混合实例感知的3D高斯动态场景图系统，配备具身推理代理，旨在解决长期具身场景理解问题。现有方法在不完整的跨视角线索下，实例关联脆弱，且处理物体级拓扑变化的能力有限，阻碍了长期机器人任务的执行。此外，现有3D场景理解方法或依赖于简单的特征匹配而缺乏显式的空间推理，或假设离线的真值3D几何。DGSG-Mind耦合概率体素网格和显式3D高斯，实现鲁棒的跨模态实例融合和增量语义建图。通过基于高斯的视觉重定位和几何-语义一致性引导的局部掩码细化来处理动态变化。在实例高斯图的基础上，DGSG-Mind进一步构建分层场景图，并开发3D高斯Mind，整合结构关系、空间语义信息和视觉标注的RoI高斯渲染，用于多模态推理。实验表明，DGSG-Mind在自重建地图上的零样本3DVG性能最佳，并在3D开放词汇语义分割和场景重建方面表现出色。DGSG-Mind已部署在真实机器人上，展示了其面向目标的推理和动态更新能力。

🔬 方法详解

问题定义：现有动态3D场景理解方法在长期机器人任务中面临挑战，主要体现在：1) 跨视角线索不完整导致实例关联不稳定；2) 无法有效处理物体级别的拓扑结构变化；3) 依赖简单的特征匹配或离线真值3D几何，缺乏有效的空间推理能力。这些问题限制了机器人对动态环境的长期理解和交互能力。

核心思路：DGSG-Mind的核心思路是将概率体素网格与显式3D高斯表示相结合，构建一个混合的、实例感知的动态场景图。通过高斯表示实现精确的几何建模和高效的渲染，同时利用体素网格进行概率融合和场景管理。这种混合表示能够更好地处理跨模态信息融合、动态场景变化和长期场景理解。

技术框架：DGSG-Mind系统包含以下主要模块：1) 实例高斯地图构建：利用概率体素网格和3D高斯进行跨模态实例融合和增量语义建图。2) 动态场景更新：通过基于高斯的视觉重定位和局部掩码细化，处理场景中的动态变化，并保持几何-语义一致性。3) 分层场景图构建：在实例高斯地图的基础上，构建包含结构关系、空间语义信息和视觉信息的层次化场景图。4) 3D高斯Mind：整合场景图中的信息，用于多模态推理和目标导向的任务执行。

关键创新：DGSG-Mind的关键创新在于其混合的3D场景表示方法和动态更新机制。与现有方法相比，DGSG-Mind能够更鲁棒地进行跨模态实例融合，更有效地处理动态场景变化，并提供更丰富的场景信息用于推理。此外，DGSG-Mind通过显式地建模场景中的物体关系，增强了机器人对环境的理解能力。

关键设计：DGSG-Mind的关键设计包括：1) 高斯表示的参数化：使用均值、协方差矩阵等参数来描述3D高斯，用于精确的几何建模。2) 概率体素网格的更新策略：根据观测信息动态更新体素网格中的概率值，用于融合不同视角的观测结果。3) 几何-语义一致性损失函数：用于指导局部掩码细化，确保场景更新过程中几何和语义信息的一致性。4) 场景图的构建规则：定义节点和边的类型，用于表示场景中的物体、关系和属性。

🖼️ 关键图片

📊 实验亮点

DGSG-Mind在3DVG任务上取得了最佳的零样本性能，超越了其他基于自重建地图的方法。此外，在3D开放词汇语义分割和场景重建任务中也表现出强大的性能。在真实机器人上的实验验证了DGSG-Mind在动态环境中的目标导向推理和动态更新能力。

🎯 应用场景

DGSG-Mind在机器人导航、场景理解、增强现实等领域具有广泛的应用前景。它可以帮助机器人在动态环境中进行长期自主导航和交互，提升增强现实应用的真实感和交互性，并为场景理解提供更准确和全面的信息。该研究的成果有助于推动机器人技术和计算机视觉技术的发展。

📄 摘要（原文）

Integrating open-vocabulary semantic information into dynamic 3D scene representations is essential for long-term embodied scene understanding. However, existing methods often suffer from fragile instance association due to incomplete cross-view cues, while their limited ability to handle object-level topological changes restricts long-term robotic task execution. Moreover, current 3D scene understanding methods either rely on simple feature matching without explicit spatial reasoning or assume offline ground-truth 3D geometry. To address these challenges, we present DGSG-Mind, a hybrid instance-aware 3D Gaussian dynamic scene graph system with an embodied reasoning agent. Our system couples a probabilistic voxel grid with explicit 3D Gaussians to enable robust cross-modal instance fusion and incremental semantic mapping. It handles dynamic changes through Gaussian-based visual relocalization and localized masked refinement guided by geometric-semantic consistency. Built on the instance Gaussian map, DGSG-Mind further constructs a hierarchical scene graph and develops the 3D Gaussian Mind, which integrates structural relations, spatial-semantic information, and visually annotated RoI Gaussian renderings for multimodal reasoning. Extensive experiments show that DGSG-Mind achieves the best zero-shot 3DVG performance among methods operating on self-reconstructed maps, while also delivering strong performance in 3D open-vocabulary semantic segmentation and scene reconstruction. We further deploy DGSG-Mind on real-world robots to demonstrate its target-oriented reasoning and dynamic update capabilities. The project page of DGSG-Mind is available at https://icr-lab.github.io/DGSG-Mind

DGSG-Mind: Dynamic 3D Gaussian Scene Graphs for Long-Term Scene Understanding and Grounding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理