FGO-SLAM: Enhancing Gaussian SLAM with Globally Consistent Opacity Radiance Field

📄 arXiv: 2509.01547v1 📥 PDF

作者: Fan Zhu, Yifan Zhao, Ziyu Chen, Biao Yu, Hui Zhu

分类: cs.RO

发布日期: 2025-09-01

备注: ICRA 2025


💡 一句话要点

FGO-SLAM:利用全局一致的不透明度辐射场增强高斯SLAM的几何重建性能

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉SLAM 高斯SLAM 不透明度辐射场 三维重建 全局优化

📋 核心要点

  1. 传统SLAM方法难以兼顾高质量场景重建和精确的几何表示,高斯SLAM在位姿优化和几何重建方面存在不足。
  2. FGO-SLAM利用不透明度辐射场增强高斯SLAM的几何重建,通过全局调整优化位姿和点云,并维护全局一致的辐射场。
  3. 实验结果表明,FGO-SLAM在真实和合成数据集上均实现了最先进的跟踪精度和映射性能。

📝 摘要(中文)

视觉SLAM因其为具身智能提供感知能力和仿真测试数据而重新受到关注。然而,传统的SLAM方法难以满足高质量场景重建的需求。高斯SLAM系统虽然具有快速渲染和高质量地图构建能力,但缺乏有效的位姿优化方法,并且在几何重建方面面临挑战。为了解决这些问题,我们提出了FGO-SLAM,一种高斯SLAM系统,它采用不透明度辐射场作为场景表示,以增强几何映射性能。在初始位姿估计后,我们应用全局调整来优化相机位姿和稀疏点云,确保我们方法的鲁棒跟踪。此外,我们维护一个基于3D高斯体的全局一致的不透明度辐射场,并引入深度失真和法线一致性项来细化场景表示。更进一步,在构建四面体网格后,我们识别水平集以直接从3D高斯体中提取表面。在各种真实世界和大规模合成数据集上的结果表明,我们的方法实现了最先进的跟踪精度和映射性能。

🔬 方法详解

问题定义:现有SLAM方法,特别是高斯SLAM,在几何重建方面存在挑战,难以实现高精度、高质量的场景重建。高斯SLAM虽然渲染速度快,但缺乏有效的位姿优化方法,导致几何重建效果不佳。因此,需要一种能够提升几何重建性能的高斯SLAM系统。

核心思路:FGO-SLAM的核心思路是利用不透明度辐射场(Opacity Radiance Field)作为场景表示,并结合全局优化策略,来增强高斯SLAM的几何重建能力。通过维护全局一致的辐射场,并引入深度失真和法线一致性约束,可以更准确地表示场景的几何结构。

技术框架:FGO-SLAM的整体框架包括以下几个主要阶段:1) 初始位姿估计:使用传统方法进行初始的相机位姿估计。2) 全局调整:对相机位姿和稀疏点云进行全局优化,以确保跟踪的鲁棒性。3) 不透明度辐射场构建与优化:基于3D高斯体构建全局一致的不透明度辐射场,并利用深度失真和法线一致性项进行优化。4) 表面提取:构建四面体网格,并通过识别水平集直接从3D高斯体中提取表面。

关键创新:FGO-SLAM的关键创新在于将不透明度辐射场引入到高斯SLAM中,并设计了相应的优化策略。具体来说,通过维护全局一致的辐射场,并引入深度失真和法线一致性约束,可以有效地提升几何重建的精度和质量。此外,直接从3D高斯体中提取表面的方法也避免了传统方法中常见的表面重建问题。

关键设计:在不透明度辐射场的构建和优化过程中,采用了深度失真和法线一致性作为损失函数的一部分,用于约束3D高斯体的形状和位置,使其更符合真实的场景几何结构。此外,四面体网格的构建和水平集的识别也需要精细的参数调整,以确保能够准确地提取出场景的表面。

📊 实验亮点

FGO-SLAM在多个真实世界和大规模合成数据集上进行了评估,实验结果表明,该方法在跟踪精度和映射性能方面均达到了最先进水平。相较于传统的高斯SLAM方法,FGO-SLAM在几何重建的精度和质量上有了显著提升,能够更准确地捕捉场景的细节信息。

🎯 应用场景

FGO-SLAM在机器人导航、虚拟现实、增强现实、三维地图构建等领域具有广泛的应用前景。它可以为机器人提供更精确的环境感知能力,从而实现更安全、更高效的自主导航。在VR/AR领域,FGO-SLAM可以用于构建高质量的三维场景,提升用户体验。此外,该技术还可以应用于城市建模、文物保护等领域,具有重要的实际价值和未来影响。

📄 摘要(原文)

Visual SLAM has regained attention due to its ability to provide perceptual capabilities and simulation test data for Embodied AI. However, traditional SLAM methods struggle to meet the demands of high-quality scene reconstruction, and Gaussian SLAM systems, despite their rapid rendering and high-quality mapping capabilities, lack effective pose optimization methods and face challenges in geometric reconstruction. To address these issues, we introduce FGO-SLAM, a Gaussian SLAM system that employs an opacity radiance field as the scene representation to enhance geometric mapping performance. After initial pose estimation, we apply global adjustment to optimize camera poses and sparse point cloud, ensuring robust tracking of our approach. Additionally, we maintain a globally consistent opacity radiance field based on 3D Gaussians and introduce depth distortion and normal consistency terms to refine the scene representation. Furthermore, after constructing tetrahedral grids, we identify level sets to directly extract surfaces from 3D Gaussians. Results across various real-world and large-scale synthetic datasets demonstrate that our method achieves state-of-the-art tracking accuracy and mapping performance.