Habitat-GS: A High-Fidelity Navigation Simulator with Dynamic Gaussian Splatting

📄 arXiv: 2604.12626v1 📥 PDF

作者: Ziyuan Xia, Jingyi Xu, Chong Cui, Yuanhong Yu, Jiazhao Zhang, Qingsong Yan, Tao Ni, Junbo Chen, Xiaowei Zhou, Hujun Bao, Ruizhen Hu, Sida Peng

分类: cs.RO, cs.CV

发布日期: 2026-04-14

备注: Project page: https://zju3dv.github.io/habitat-gs/


💡 一句话要点

Habitat-GS:基于动态高斯溅射的高保真导航模拟器,用于具身智能体训练。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 具身智能 导航模拟器 3D高斯溅射 人机交互 动态人体建模 跨域泛化 Habitat-Sim

📋 核心要点

  1. 现有模拟器依赖于基于网格的栅格化,视觉真实感有限,且对动态人体化身的支持受限于网格表示,阻碍了智能体在真实世界场景中的泛化。
  2. Habitat-GS集成了3D高斯溅射渲染和可驱动的高斯化身,实现了实时照片级真实感渲染,并支持从多种来源导入3DGS资产。
  3. 实验表明,在3DGS场景中训练的智能体在跨域泛化方面表现更强,且高斯化身能够有效实现人机交互导航,验证了系统的可扩展性。

📝 摘要(中文)

本文提出了Habitat-GS,一个以导航为中心的具身AI模拟器,它扩展自Habitat-Sim,集成了3D高斯溅射场景渲染和可驱动的高斯化身,同时保持与Habitat生态系统的完全兼容。该系统实现了用于实时照片级真实感渲染的3DGS渲染器,并支持来自各种来源的可扩展3DGS资产导入。对于动态人体建模,我们引入了一个高斯化身模块,该模块使每个化身能够同时充当照片级真实感的视觉实体和有效的导航障碍,从而使智能体能够在真实环境中学习人机交互行为。在点目标导航上的实验表明,在3DGS场景上训练的智能体实现了更强的跨域泛化能力,其中混合域训练是最有效的策略。对化身感知导航的评估进一步证实,高斯化身能够实现有效的人机交互导航。最后,性能基准验证了系统在不同场景复杂性和化身数量上的可扩展性。

🔬 方法详解

问题定义:现有具身智能体模拟器在视觉逼真度和动态人体建模方面存在局限性。传统的基于网格的渲染方法难以达到照片级真实感,并且对动态人体化身的支持不足,限制了智能体在真实世界人机交互场景中的应用和泛化能力。

核心思路:本文的核心思路是利用3D高斯溅射(3DGS)技术来提升模拟环境的视觉逼真度,并引入可驱动的高斯化身来模拟动态人体。通过将3DGS渲染集成到Habitat-Sim中,并设计高斯化身模块,使得智能体能够在更真实的环境中学习人机交互行为。

技术框架:Habitat-GS系统主要包含以下几个模块:1) 3DGS渲染器:用于实时渲染照片级真实感的场景;2) 3DGS资产导入模块:支持从多种来源导入3DGS场景;3) 高斯化身模块:用于建模动态人体,每个化身既是视觉实体,也是导航障碍;4) Habitat-Sim集成:与Habitat生态系统完全兼容,方便使用现有的工具和数据集。整体流程是先构建3DGS场景和高斯化身,然后在Habitat-Sim中进行模拟和训练。

关键创新:最重要的技术创新点在于将3DGS技术应用于具身智能体模拟,并提出了可驱动的高斯化身。与传统的基于网格的渲染方法相比,3DGS能够实现更高的视觉逼真度和更快的渲染速度。高斯化身则提供了一种新的动态人体建模方法,能够同时满足视觉呈现和导航障碍的需求。

关键设计:高斯化身的关键设计在于其参数化表示,每个高斯分布包含位置、协方差、颜色和透明度等参数。这些参数可以通过优化算法进行学习,从而使得化身能够逼真地模拟人体的外观和运动。此外,高斯化身还被设计成导航障碍,智能体需要学习如何避开这些障碍,从而实现人机交互导航。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在3DGS场景上训练的智能体在点目标导航任务中实现了更强的跨域泛化能力。混合域训练(同时在真实场景和模拟场景中训练)是最有效的策略。此外,对化身感知导航的评估证实,高斯化身能够有效实现人机交互导航。性能基准测试验证了系统在不同场景复杂性和化身数量上的可扩展性。

🎯 应用场景

Habitat-GS可应用于机器人导航、自动驾驶、虚拟现实等领域。它能够帮助智能体在更真实的环境中学习和训练,提高其在真实世界中的泛化能力和人机交互能力。例如,可以用于训练服务型机器人,使其能够在人群中安全有效地导航,或者用于训练自动驾驶汽车,使其能够更好地理解和预测行人的行为。

📄 摘要(原文)

Training embodied AI agents depends critically on the visual fidelity of simulation environments and the ability to model dynamic humans. Current simulators rely on mesh-based rasterization with limited visual realism, and their support for dynamic human avatars, where available, is constrained to mesh representations, hindering agent generalization to human-populated real-world scenarios. We present Habitat-GS, a navigation-centric embodied AI simulator extended from Habitat-Sim that integrates 3D Gaussian Splatting scene rendering and drivable gaussian avatars while maintaining full compatibility with the Habitat ecosystem. Our system implements a 3DGS renderer for real-time photorealistic rendering and supports scalable 3DGS asset import from diverse sources. For dynamic human modeling, we introduce a gaussian avatar module that enables each avatar to simultaneously serve as a photorealistic visual entity and an effective navigation obstacle, allowing agents to learn human-aware behaviors in realistic settings. Experiments on point-goal navigation demonstrate that agents trained on 3DGS scenes achieve stronger cross-domain generalization, with mixed-domain training being the most effective strategy. Evaluations on avatar-aware navigation further confirm that gaussian avatars enable effective human-aware navigation. Finally, performance benchmarks validate the system's scalability across varying scene complexity and avatar counts.