GSFF-SLAM: 3D Semantic Gaussian Splatting SLAM via Feature Field

📄 arXiv: 2504.19409v2 📥 PDF

作者: Zuxing Lu, Xin Yuan, Shaowen Yang, Jingyu Liu, Changyin Sun

分类: cs.RO, cs.AI

发布日期: 2025-04-28 (更新: 2025-05-16)


💡 一句话要点

GSFF-SLAM:基于特征场的3D语义高斯溅射SLAM,提升语义重建质量与效率。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 语义SLAM 3D高斯溅射 特征场 语义重建 机器人导航

📋 核心要点

  1. 现有语义SLAM系统依赖2D真值先验进行监督,但在真实环境中,这些信号通常稀疏且噪声大,限制了重建效果。
  2. GSFF-SLAM利用特征场进行联合渲染,并独立优化特征梯度,从而支持各种2D先验,尤其适用于稀疏和噪声信号。
  3. 实验表明,GSFF-SLAM在跟踪精度和渲染质量上优于现有方法,并在语义分割任务中达到SOTA,同时实现了显著的加速。

📝 摘要(中文)

本文提出了一种名为GSFF-SLAM的新型密集语义SLAM系统,该系统基于3D高斯溅射,并利用特征场实现外观、几何形状和N维语义特征的联合渲染。该方法通过独立优化特征梯度,支持使用各种形式的2D先验进行语义重建,尤其适用于稀疏和噪声信号。实验结果表明,该方法在跟踪精度和照片级真实感渲染质量方面均优于现有方法。在使用2D真值先验时,GSFF-SLAM实现了最先进的语义分割性能,mIoU达到95.03%,同时实现了高达2.9倍的加速,而性能仅有边际下降。

🔬 方法详解

问题定义:现有的语义SLAM系统依赖于2D的ground truth先验信息进行监督,然而在实际应用场景中,这些2D信息往往存在稀疏性和噪声,这严重限制了语义SLAM系统的性能和鲁棒性。因此,如何利用更鲁棒的先验信息,提升语义SLAM在真实环境下的表现,是本文要解决的核心问题。

核心思路:GSFF-SLAM的核心思路是利用3D高斯溅射(3D Gaussian Splatting)作为底层表示,并引入特征场(Feature Field)的概念,将外观、几何和语义信息统一到一个框架中进行优化。通过独立优化特征梯度,系统能够更好地利用各种形式的2D先验信息,特别是那些稀疏和带有噪声的信号。

技术框架:GSFF-SLAM的整体框架包含以下几个主要模块:1) 基于图像的3D高斯初始化;2) 位姿跟踪与场景重建,利用高斯溅射进行渲染,并优化相机位姿和高斯参数;3) 特征场构建与优化,将语义信息编码到特征场中,并利用2D先验信息进行监督;4) 语义渲染,利用优化后的高斯参数和特征场进行语义分割和渲染。

关键创新:GSFF-SLAM的关键创新在于引入了特征场来表示和优化语义信息。与传统的直接预测语义标签的方法不同,GSFF-SLAM通过优化特征梯度,使得系统能够更好地利用各种形式的2D先验信息,从而提高语义重建的质量和鲁棒性。此外,该方法还实现了外观、几何和语义信息的联合优化,从而提高了整体系统的性能。

关键设计:在特征场的构建方面,论文采用了一种基于MLP(多层感知机)的网络结构,将3D空间坐标映射到N维的特征向量。在损失函数的设计方面,论文综合考虑了光度一致性损失、深度一致性损失和语义一致性损失,以实现外观、几何和语义信息的联合优化。特别地,语义一致性损失是基于2D先验信息计算的,通过优化特征梯度,使得渲染得到的语义分割结果与2D先验信息尽可能一致。

📊 实验亮点

GSFF-SLAM在实验中表现出色,在使用2D真值先验的情况下,语义分割的mIoU达到了95.03%,达到了state-of-the-art的水平。同时,该方法还实现了高达2.9倍的加速,而性能仅有边际下降。这些结果表明,GSFF-SLAM在语义重建的质量和效率方面都具有显著的优势。

🎯 应用场景

GSFF-SLAM在机器人导航、增强现实、虚拟现实、三维地图构建等领域具有广泛的应用前景。该技术可以帮助机器人在复杂环境中进行更精确的定位和导航,并为用户提供更逼真的增强现实和虚拟现实体验。此外,GSFF-SLAM还可以用于构建高精度的三维语义地图,为城市规划、环境监测等领域提供重要的数据支持。

📄 摘要(原文)

Semantic-aware 3D scene reconstruction is essential for autonomous robots to perform complex interactions. Semantic SLAM, an online approach, integrates pose tracking, geometric reconstruction, and semantic mapping into a unified framework, shows significant potential. However, existing systems, which rely on 2D ground truth priors for supervision, are often limited by the sparsity and noise of these signals in real-world environments. To address this challenge, we propose GSFF-SLAM, a novel dense semantic SLAM system based on 3D Gaussian Splatting that leverages feature fields to achieve joint rendering of appearance, geometry, and N-dimensional semantic features. By independently optimizing feature gradients, our method supports semantic reconstruction using various forms of 2D priors, particularly sparse and noisy signals. Experimental results demonstrate that our approach outperforms previous methods in both tracking accuracy and photorealistic rendering quality. When utilizing 2D ground truth priors, GSFF-SLAM achieves state-of-the-art semantic segmentation performance with 95.03\% mIoU, while achieving up to 2.9$\times$ speedup with only marginal performance degradation.