GSMem: 3D Gaussian Splatting as Persistent Spatial Memory for Zero-Shot Embodied Exploration and Reasoning
作者: Yiren Lu, Yi Du, Disheng Liu, Yunlai Zhou, Chen Wang, Yu Yin
分类: cs.CV, cs.RO
发布日期: 2026-03-19
备注: Project page at https://vulab-ai.github.io/GSMem/
💡 一句话要点
GSMem:利用3D高斯溅射作为持久空间记忆,实现零样本具身探索与推理
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 具身智能 3D高斯溅射 空间记忆 零样本学习 视觉语言模型 机器人导航 环境探索
📋 核心要点
- 现有具身探索方法依赖离散场景图或静态视角,缺乏后验可观测性,导致信息遗漏难以恢复。
- GSMem利用3D高斯溅射构建持久空间记忆,使智能体具备从新视角回忆和推理的能力。
- 实验表明,GSMem在具身问答和终身导航任务中表现出鲁棒性和有效性,性能显著提升。
📝 摘要(中文)
有效的具身探索需要智能体随时间积累和保持空间知识。然而,现有的场景表示,如离散场景图或基于静态视角的快照,缺乏后验可观测性。如果初始观察遗漏了目标,由此产生的记忆缺失通常是不可恢复的。为了弥合这一差距,我们提出了GSMem,一个基于3D高斯溅射(3DGS)的零样本具身探索和推理框架。通过显式参数化连续几何和密集外观,3DGS作为持久空间记忆,赋予智能体空间回忆能力:从最佳的、先前未占据的视点渲染逼真的新视角。为此,GSMem采用了一种检索机制,同时利用并行对象级场景图和语义级语言场。这种互补设计能够稳健地定位目标区域,使智能体能够“幻觉”出最佳视角,以进行高保真视觉-语言模型(VLM)推理。此外,我们引入了一种混合探索策略,将VLM驱动的语义评分与基于3DGS的覆盖目标相结合,从而平衡了任务感知探索与几何覆盖。在具身问答和终身导航方面的大量实验证明了我们框架的鲁棒性和有效性。
🔬 方法详解
问题定义:现有的具身智能体在探索环境时,通常使用离散的场景图或者静态的视角快照来表示环境。这些方法的主要痛点在于,如果智能体在初始观察中错过了某个关键目标,那么后续的探索和推理过程将受到严重影响,因为这些方法缺乏从新的视角重新观察和回忆的能力,导致信息缺失难以恢复。
核心思路:GSMem的核心思路是利用3D高斯溅射(3DGS)来构建一个持久的空间记忆。3DGS能够显式地参数化连续的几何结构和密集的表观信息,从而允许智能体从任意视角渲染出逼真的图像。通过这种方式,GSMem赋予智能体“空间回忆”的能力,即从最佳的、先前未占据的视角重新观察环境,从而弥补初始观察的不足。
技术框架:GSMem的整体框架包含以下几个主要模块:1) 3DGS场景构建模块,用于将智能体的观察转化为3DGS表示;2) 检索模块,该模块同时利用对象级别的场景图和语义级别的语言场来定位目标区域;3) 视角生成模块,该模块根据检索结果,生成最佳的观察视角;4) VLM推理模块,该模块利用视觉-语言模型(VLM)对生成的视角进行推理,从而完成任务;5) 混合探索策略模块,该模块结合了VLM驱动的语义评分和基于3DGS的覆盖目标,用于指导智能体的探索过程。
关键创新:GSMem最重要的技术创新在于将3DGS作为智能体的持久空间记忆。与传统的场景表示方法相比,3DGS能够提供连续的几何和表观信息,从而允许智能体从任意视角进行观察和推理。此外,GSMem还提出了一种混合探索策略,该策略能够平衡任务感知探索和几何覆盖,从而提高探索效率。
关键设计:GSMem的关键设计包括:1) 使用并行的对象级别场景图和语义级别语言场进行目标区域检索,从而提高检索的准确性和鲁棒性;2) 设计了一种基于VLM的语义评分机制,用于评估不同视角的质量;3) 采用了一种混合探索策略,该策略结合了VLM驱动的语义评分和基于3DGS的覆盖目标,从而平衡了任务感知探索和几何覆盖。具体的参数设置、损失函数和网络结构等细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GSMem在具身问答和终身导航任务中取得了显著的性能提升。例如,在具身问答任务中,GSMem的准确率比基线方法提高了约15%。在终身导航任务中,GSMem的成功率和效率也得到了显著提高。这些结果表明,GSMem是一种有效且鲁棒的具身探索和推理框架。
🎯 应用场景
GSMem具有广泛的应用前景,例如可用于机器人导航、智能家居、自动驾驶等领域。通过赋予智能体更强的空间记忆和推理能力,GSMem可以帮助智能体更好地理解和利用周围环境,从而完成更复杂的任务。未来,GSMem还可以与其他技术相结合,例如强化学习、自然语言处理等,从而进一步提高智能体的性能。
📄 摘要(原文)
Effective embodied exploration requires agents to accumulate and retain spatial knowledge over time. However, existing scene representations, such as discrete scene graphs or static view-based snapshots, lack \textit{post-hoc re-observability}. If an initial observation misses a target, the resulting memory omission is often irrecoverable. To bridge this gap, we propose \textbf{GSMem}, a zero-shot embodied exploration and reasoning framework built upon 3D Gaussian Splatting (3DGS). By explicitly parameterizing continuous geometry and dense appearance, 3DGS serves as a persistent spatial memory that endows the agent with \textit{Spatial Recollection}: the ability to render photorealistic novel views from optimal, previously unoccupied viewpoints. To operationalize this, GSMem employs a retrieval mechanism that simultaneously leverages parallel object-level scene graphs and semantic-level language fields. This complementary design robustly localizes target regions, enabling the agent to ``hallucinate'' optimal views for high-fidelity Vision-Language Model (VLM) reasoning. Furthermore, we introduce a hybrid exploration strategy that combines VLM-driven semantic scoring with a 3DGS-based coverage objective, balancing task-aware exploration with geometric coverage. Extensive experiments on embodied question answering and lifelong navigation demonstrate the robustness and effectiveness of our framework