Free-SurGS: SfM-Free 3D Gaussian Splatting for Surgical Scene Reconstruction

📄 arXiv: 2407.02918v1 📥 PDF

作者: Jiaxin Guo, Jiangliu Wang, Di Kang, Wenzhen Dong, Wenting Wang, Yun-hui Liu

分类: cs.CV, eess.IV

发布日期: 2024-07-03

备注: Accepted to MICCAI 2024

🔗 代码/项目: GITHUB


💡 一句话要点

提出Free-SurGS,一种无需SfM的手术场景3D高斯溅射重建方法

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D高斯溅射 手术场景重建 无需SfM 光流引导 姿态估计

📋 核心要点

  1. 传统基于SfM的3DGS方法在纹理稀疏和光度不一致的手术场景中,难以准确恢复相机姿态和几何结构。
  2. Free-SurGS利用视频连续性,通过光流先验引导3D高斯投影光流,联合优化相机姿态和场景表示,无需SfM。
  3. 在SCARED数据集上的实验表明,Free-SurGS在高效性方面优于现有方法,并在新视角合成和姿态估计方面表现出色。

📝 摘要(中文)

本文提出了一种无需Structure-from-Motion (SfM) 的基于3D高斯溅射(3DGS)的手术场景重建方法,旨在解决传统3DGS在纹理稀疏和光度不一致的手术场景中相机姿态和几何结构重建失败的问题。该方法通过联合优化相机姿态和场景表示来实现重建。核心思想是利用视频连续性,通过光流先验来引导3D高斯投影光流。与以往仅依赖光度损失的方法不同,本文将姿态估计问题转化为最小化投影光流和光流之间的损失。此外,引入一致性检查来过滤光流异常值,检测满足对极几何的刚性和可靠点。在3D高斯优化过程中,随机采样帧来逐步优化场景表示。在SCARED数据集上的实验表明,该方法在高效性方面优于现有方法,并在新视角合成和姿态估计方面表现出卓越的性能。

🔬 方法详解

问题定义:论文旨在解决手术场景中,由于纹理信息不足和光照变化剧烈,导致传统基于Structure-from-Motion (SfM) 的3D高斯溅射(3DGS)方法无法准确重建场景几何结构和相机姿态的问题。现有方法依赖于SfM提供的初始点云和相机姿态,但在手术场景中,SfM的性能会显著下降,从而影响后续3DGS的优化效果。

核心思路:论文的核心思路是摆脱对SfM的依赖,直接从视频序列中联合优化相机姿态和3D高斯场景表示。关键在于利用视频帧之间的连续性,通过光流信息来约束相机运动和场景结构。具体来说,利用光流作为先验知识,引导3D高斯投影得到的光流,并通过最小化两者之间的差异来优化相机姿态。

技术框架:Free-SurGS的整体框架包含以下几个主要步骤:1) 光流估计:使用现有的光流算法(例如RAFT)估计连续帧之间的光流。2) 姿态估计:通过最小化投影光流和估计光流之间的差异来优化相机姿态。同时,使用一致性检查来过滤掉不准确的光流估计。3) 3D高斯优化:使用优化后的相机姿态,随机采样视频帧,逐步优化3D高斯场景表示。

关键创新:该方法最重要的创新点在于提出了一个无需SfM的3DGS重建框架,特别适用于纹理稀疏和光照变化剧烈的手术场景。与传统方法依赖SfM初始化不同,Free-SurGS直接从视频中学习场景几何和相机姿态,避免了SfM带来的误差累积。此外,利用光流作为先验知识,有效地约束了相机运动和场景结构,提高了重建的准确性和鲁棒性。

关键设计:在姿态估计阶段,论文设计了一个基于光流的损失函数,用于衡量投影光流和估计光流之间的差异。该损失函数可以表示为:L_flow = ||flow_projected - flow_estimated||。此外,为了过滤掉不准确的光流估计,论文引入了一致性检查,即利用对极几何约束来判断光流是否满足刚性运动假设。在3D高斯优化阶段,论文采用了一种渐进式的优化策略,即从少量高斯开始,逐步增加高斯的数量,以提高重建的效率和质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Free-SurGS在SCARED数据集上取得了显著的性能提升。在相机姿态估计方面,Free-SurGS的平均绝对轨迹误差(ATE)和旋转误差(RPE)均优于现有方法。在新视角合成方面,Free-SurGS生成的图像在PSNR、SSIM和LPIPS等指标上均取得了更好的结果。此外,Free-SurGS在重建效率方面也表现出色,能够实现实时的场景重建和渲染。

🎯 应用场景

Free-SurGS在计算机辅助手术领域具有广阔的应用前景。它可以用于手术导航、术中增强现实、手术机器人控制等方面,帮助医生更好地了解手术场景,提高手术精度和安全性。此外,该方法还可以应用于其他纹理稀疏或光照变化剧烈的场景的三维重建,例如水下环境、室内环境等。

📄 摘要(原文)

Real-time 3D reconstruction of surgical scenes plays a vital role in computer-assisted surgery, holding a promise to enhance surgeons' visibility. Recent advancements in 3D Gaussian Splatting (3DGS) have shown great potential for real-time novel view synthesis of general scenes, which relies on accurate poses and point clouds generated by Structure-from-Motion (SfM) for initialization. However, 3DGS with SfM fails to recover accurate camera poses and geometry in surgical scenes due to the challenges of minimal textures and photometric inconsistencies. To tackle this problem, in this paper, we propose the first SfM-free 3DGS-based method for surgical scene reconstruction by jointly optimizing the camera poses and scene representation. Based on the video continuity, the key of our method is to exploit the immediate optical flow priors to guide the projection flow derived from 3D Gaussians. Unlike most previous methods relying on photometric loss only, we formulate the pose estimation problem as minimizing the flow loss between the projection flow and optical flow. A consistency check is further introduced to filter the flow outliers by detecting the rigid and reliable points that satisfy the epipolar geometry. During 3D Gaussian optimization, we randomly sample frames to optimize the scene representations to grow the 3D Gaussian progressively. Experiments on the SCARED dataset demonstrate our superior performance over existing methods in novel view synthesis and pose estimation with high efficiency. Code is available at https://github.com/wrld/Free-SurGS.