EndoWave: Rational-Wavelet 4D Gaussian Splatting for Endoscopic Reconstruction
作者: Taoyu Wu, Yiyi Miao, Jiaxin Guo, Ziyan Chen, Sihang Zhao, Zhuoxiao Li, Zhe Tang, Baoru Huang, Limin Yu
分类: cs.CV, cs.RO
发布日期: 2025-10-27
💡 一句话要点
EndoWave:用于内窥镜重建的Rational-Wavelet 4D高斯溅射
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 内窥镜重建 4D高斯溅射 光流约束 有理小波 时空建模
📋 核心要点
- 内窥镜视频3D重建面临光度变化、组织形变和视角高光等挑战,传统3DGS方法仅依赖外观信息易受干扰。
- EndoWave结合光流几何约束和多分辨率有理小波监督,在4D时空域优化高斯图元,提升重建精度。
- 在EndoNeRF和StereoMIS数据集上,EndoWave相较于基线方法,实现了最先进的重建质量和视觉精度。
📝 摘要(中文)
在机器人辅助微创手术中,从内窥镜视频进行精确的3D重建对于下游任务和改善手术结果至关重要。然而,内窥镜场景面临独特挑战,包括光度不一致性、非刚性组织运动和视角相关的亮点。大多数基于3DGS的方法仅依赖外观约束来优化3DGS,这在内窥镜场景中通常是不够的,因为这些动态视觉伪影会误导优化过程,导致不准确的重建。为了解决这些限制,我们提出了EndoWave,一个统一的时空高斯溅射框架,它结合了基于光流的几何约束和多分辨率有理小波监督。首先,我们采用统一的时空高斯表示,直接在4D域中优化图元。其次,我们提出了一种从光流导出的几何约束,以增强时间一致性并有效地约束场景的3D结构。第三,我们提出了一种多分辨率有理正交小波作为约束,它可以有效地分离内窥镜的细节并提高渲染性能。在两个真实手术数据集EndoNeRF和StereoMIS上的大量评估表明,与基线方法相比,我们的方法EndoWave实现了最先进的重建质量和视觉精度。
🔬 方法详解
问题定义:论文旨在解决内窥镜视频三维重建中,由于光照变化、组织非刚性运动以及视角依赖的高光等因素,导致传统基于3D高斯溅射(3DGS)方法重建精度不足的问题。现有方法主要依赖外观信息进行优化,容易受到这些动态视觉伪影的干扰,从而产生不准确的重建结果。
核心思路:EndoWave的核心思路是引入几何约束和多分辨率小波监督,增强时空一致性,从而提高重建的鲁棒性和精度。通过光流估计提供几何约束,约束场景的3D结构,并利用有理小波分解图像,分离内窥镜细节,提升渲染质量。
技术框架:EndoWave采用统一的时空高斯表示,直接在4D域中优化高斯图元。该框架包含以下主要模块:1) 4D高斯图元表示:使用4D高斯分布表示场景的时空信息。2) 光流估计:利用光流算法估计连续帧之间的像素运动。3) 几何约束:基于光流估计结果,构建几何约束项,用于约束高斯图元的运动和形变。4) 多分辨率有理小波监督:使用多分辨率有理小波分解渲染图像,并将其作为监督信号,用于优化高斯图元的参数。5) 渲染模块:将优化后的高斯图元渲染成图像。
关键创新:EndoWave的关键创新在于:1) 统一的时空高斯表示,可以直接在4D域中优化图元,更好地处理时序信息。2) 基于光流的几何约束,可以有效地约束场景的3D结构,提高重建的鲁棒性。3) 多分辨率有理小波监督,可以有效地分离内窥镜的细节并提高渲染性能。与现有方法相比,EndoWave不仅利用外观信息,还结合了几何信息和小波信息,从而提高了重建的精度和鲁棒性。
关键设计:在几何约束方面,论文利用光流估计结果,计算相邻帧之间对应像素的3D位置变化,并将其作为约束项加入到损失函数中。在多分辨率有理小波监督方面,论文选择合适的有理小波基函数,并设计了相应的损失函数,以保证小波分解的有效性。此外,论文还对高斯图元的参数进行了合理的初始化和更新策略,以保证优化过程的稳定性和收敛性。
🖼️ 关键图片
📊 实验亮点
EndoWave在EndoNeRF和StereoMIS两个真实手术数据集上进行了广泛的评估。实验结果表明,EndoWave在重建质量和视觉精度方面均优于基线方法,实现了最先进的性能。具体而言,EndoWave在PSNR、SSIM等指标上均有显著提升,表明其重建结果更接近真实场景,视觉效果更好。这些结果验证了EndoWave的有效性和优越性。
🎯 应用场景
EndoWave在机器人辅助微创手术中具有重要的应用价值。精确的3D重建可以帮助医生更好地理解手术场景,提高手术的精确性和安全性。此外,该技术还可以应用于术前规划、术中导航和术后评估等环节,为微创手术提供更全面的支持。未来,该技术有望推广到其他医学影像领域,如CT、MRI等,为疾病诊断和治疗提供更精确的依据。
📄 摘要(原文)
In robot-assisted minimally invasive surgery, accurate 3D reconstruction from endoscopic video is vital for downstream tasks and improved outcomes. However, endoscopic scenarios present unique challenges, including photometric inconsistencies, non-rigid tissue motion, and view-dependent highlights. Most 3DGS-based methods that rely solely on appearance constraints for optimizing 3DGS are often insufficient in this context, as these dynamic visual artifacts can mislead the optimization process and lead to inaccurate reconstructions. To address these limitations, we present EndoWave, a unified spatio-temporal Gaussian Splatting framework by incorporating an optical flow-based geometric constraint and a multi-resolution rational wavelet supervision. First, we adopt a unified spatio-temporal Gaussian representation that directly optimizes primitives in a 4D domain. Second, we propose a geometric constraint derived from optical flow to enhance temporal coherence and effectively constrain the 3D structure of the scene. Third, we propose a multi-resolution rational orthogonal wavelet as a constraint, which can effectively separate the details of the endoscope and enhance the rendering performance. Extensive evaluations on two real surgical datasets, EndoNeRF and StereoMIS, demonstrate that our method EndoWave achieves state-of-the-art reconstruction quality and visual accuracy compared to the baseline method.