Advancing Dense Endoscopic Reconstruction with Gaussian Splatting-driven Surface Normal-aware Tracking and Mapping

📄 arXiv: 2501.19319v1 📥 PDF

作者: Yiming Huang, Beilei Cui, Long Bai, Zhen Chen, Jinlin Wu, Zhen Li, Hongbin Liu, Hongliang Ren

分类: cs.CV, cs.RO

发布日期: 2025-01-31

备注: Accepted by ICRA 2025


💡 一句话要点

提出Endo-2DTAM,利用高斯溅射驱动的表面法线感知跟踪与建图,提升内窥镜稠密重建精度。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 内窥镜SLAM 高斯溅射 表面重建 深度估计 实时渲染

📋 核心要点

  1. 现有基于3D高斯溅射的SLAM系统在内窥镜场景中,由于多视角不一致性,难以实现准确的深度和表面重建。
  2. Endo-2DTAM通过引入表面法线感知的跟踪和建图流程,并结合2D高斯溅射,提升了内窥镜SLAM的重建精度。
  3. 实验表明,Endo-2DTAM在内窥镜数据集上实现了优异的深度重建精度,同时保持了实时性和高质量的渲染效果。

📝 摘要(中文)

本文提出了一种名为Endo-2DTAM的实时内窥镜SLAM系统,该系统利用2D高斯溅射(2DGS)来解决现有方法在内窥镜手术场景中由于多视角不一致导致的深度和表面重建精度问题。Endo-2DTAM包含一个表面法线感知的流程,由跟踪、建图和捆绑调整模块组成,以实现几何上精确的重建。鲁棒的跟踪模块结合了点到点和点到面的距离度量,而建图模块则利用法线一致性和深度失真来提高表面重建质量。此外,还引入了一种姿态一致性策略,用于高效且几何连贯的关键帧采样。在公共内窥镜数据集上的大量实验表明,Endo-2DTAM在手术场景的深度重建中实现了1.87±0.63毫米的RMSE,同时保持了计算效率高的跟踪、高质量的视觉外观和实时渲染。

🔬 方法详解

问题定义:内窥镜手术中的SLAM系统对于精确的手术干预和机器人任务至关重要。然而,现有的基于3D高斯溅射的SLAM系统在内窥镜场景中面临着挑战,主要是由于多视角图像之间的不一致性,导致深度和表面重建的精度不足。简单地将SLAM和3DGS结合会导致重建帧之间的不匹配,影响整体重建质量。

核心思路:Endo-2DTAM的核心思路是利用2D高斯溅射(2DGS)来表示场景,并结合表面法线信息来指导跟踪和建图过程。通过引入表面法线一致性和深度失真等约束,可以有效地减少多视角不一致性带来的误差,从而提高重建的几何精度。此外,姿态一致性策略用于关键帧采样,保证了关键帧之间的几何连贯性。

技术框架:Endo-2DTAM系统主要包含三个模块:跟踪模块、建图模块和捆绑调整模块。跟踪模块负责估计相机的姿态,建图模块负责构建场景的2D高斯溅射表示,捆绑调整模块则用于优化相机姿态和场景结构,以获得更精确的重建结果。整个流程是实时的,可以满足内窥镜手术的需求。

关键创新:Endo-2DTAM的关键创新在于其表面法线感知的跟踪和建图流程。传统的SLAM系统通常只关注图像的颜色信息,而忽略了表面法线信息。Endo-2DTAM通过将表面法线信息融入到跟踪和建图过程中,可以更有效地约束重建结果,从而提高重建的几何精度。此外,2DGS的使用也提高了渲染效率和视觉质量。

关键设计:跟踪模块采用了点到点和点到面的距离度量相结合的方式,以提高跟踪的鲁棒性。建图模块利用法线一致性和深度失真来优化高斯溅射的参数。姿态一致性策略通过选择具有相似姿态的关键帧来保证几何连贯性。具体的损失函数和参数设置在论文中有详细描述,但未在摘要中体现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Endo-2DTAM在公共内窥镜数据集上取得了显著的成果,深度重建的RMSE达到了1.87±0.63毫米。该结果表明,Endo-2DTAM能够有效地提高内窥镜SLAM的重建精度。同时,该系统保持了计算效率,能够实现实时跟踪和高质量的渲染,满足了实际应用的需求。

🎯 应用场景

Endo-2DTAM在微创手术和机器人辅助手术中具有广泛的应用前景。它可以为医生提供精确的术中导航和三维重建,帮助医生更好地了解手术区域的解剖结构,提高手术的精确性和安全性。此外,该技术还可以应用于内窥镜图像的增强现实和虚拟现实应用,为医生提供更直观的手术体验。

📄 摘要(原文)

Simultaneous Localization and Mapping (SLAM) is essential for precise surgical interventions and robotic tasks in minimally invasive procedures. While recent advancements in 3D Gaussian Splatting (3DGS) have improved SLAM with high-quality novel view synthesis and fast rendering, these systems struggle with accurate depth and surface reconstruction due to multi-view inconsistencies. Simply incorporating SLAM and 3DGS leads to mismatches between the reconstructed frames. In this work, we present Endo-2DTAM, a real-time endoscopic SLAM system with 2D Gaussian Splatting (2DGS) to address these challenges. Endo-2DTAM incorporates a surface normal-aware pipeline, which consists of tracking, mapping, and bundle adjustment modules for geometrically accurate reconstruction. Our robust tracking module combines point-to-point and point-to-plane distance metrics, while the mapping module utilizes normal consistency and depth distortion to enhance surface reconstruction quality. We also introduce a pose-consistent strategy for efficient and geometrically coherent keyframe sampling. Extensive experiments on public endoscopic datasets demonstrate that Endo-2DTAM achieves an RMSE of $1.87\pm 0.63$ mm for depth reconstruction of surgical scenes while maintaining computationally efficient tracking, high-quality visual appearance, and real-time rendering. Our code will be released at github.com/lastbasket/Endo-2DTAM.