EndoPerfect: High-Accuracy Monocular Depth Estimation and 3D Reconstruction for Endoscopic Surgery via NeRF-Stereo Fusion

📄 arXiv: 2410.04041v5 📥 PDF

作者: Pengcheng Chen, Wenhao Li, Nicole Gunderson, Jeremy Ruthberg, Randall Bly, Zhenglong Sun, Waleed M. Abuzeid, Eric J. Seibel

分类: eess.IV, cs.CV

发布日期: 2024-10-05 (更新: 2025-02-28)


💡 一句话要点

EndoPerfect:基于NeRF-Stereo融合的高精度单目内窥镜深度估计与3D重建

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 内窥镜手术 单目深度估计 3D重建 神经辐射场 NeRF 术中导航 在线学习

📋 核心要点

  1. 现有内窥镜单目3D重建技术难以达到密集重建所需的亚毫米级精度,限制了其临床应用。
  2. 该方法利用NeRF作为中间表示,通过迭代在线学习实现单目深度估计和3D重建,无需预先的医学数据。
  3. 实验结果表明,该方法在合成、体模和真实内窥镜场景中均实现了亚毫米级的重建精度。

📝 摘要(中文)

本研究针对内窥镜鼻窦手术(ESS)中术中CT(iCT)部署缓慢和辐射暴露的局限性,提出了一种基于神经辐射场(NeRF)的迭代在线学习方法,用于单目深度估计和3D重建,无需先验医学数据。该方法实现了低于0.5毫米的点对点精度,理论深度精度达到0.125 $\pm$ 0.443毫米。通过合成、体模和真实内窥镜场景的验证,证实了该方法的准确性和可靠性。结果表明,该流程有潜力作为iCT的替代方案,满足ESS中严格的亚毫米精度标准。

🔬 方法详解

问题定义:内窥镜手术中,精确的3D重建对于术中导航和评估至关重要。传统的术中CT虽然提供高精度信息,但存在部署缓慢和辐射暴露的问题。现有的基于内窥镜的单目3D重建方法难以达到亚毫米级的精度,无法满足临床需求。

核心思路:该论文的核心思路是利用NeRF作为中间表示,将单目深度估计问题转化为NeRF的场景重建问题。通过NeRF,可以隐式地学习场景的几何和外观信息,从而实现高精度的深度估计和3D重建。同时,采用迭代在线学习的方式,逐步优化NeRF的表示,提高重建精度。

技术框架:该方法主要包含以下几个阶段:1)图像采集:通过内窥镜获取手术场景的图像序列。2)NeRF初始化:使用初始的深度估计结果初始化NeRF。3)NeRF优化:通过迭代优化NeRF的参数,使其能够准确地表示场景的几何和外观信息。4)深度估计:从优化后的NeRF中提取深度信息。5)3D重建:利用深度信息进行3D重建。

关键创新:该方法最重要的创新点在于将NeRF引入到内窥镜单目3D重建中,并采用迭代在线学习的方式进行优化。与传统的基于特征匹配或深度学习的单目深度估计方法相比,该方法能够更好地利用场景的全局信息,从而实现更高的重建精度。此外,该方法无需预先的医学数据,具有更强的通用性。

关键设计:该方法采用了一种基于体渲染的NeRF优化方法,通过最小化渲染图像与真实图像之间的差异来优化NeRF的参数。损失函数包括光度损失和深度损失。光度损失用于约束NeRF的渲染图像与真实图像之间的相似度,深度损失用于约束NeRF的深度估计结果与初始深度估计结果之间的相似度。此外,该方法还采用了一种自适应学习率调整策略,以加速NeRF的优化过程。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在合成、体模和真实内窥镜场景中均取得了显著的成果。在真实内窥镜场景中,该方法实现了低于0.5毫米的点对点精度,理论深度精度达到0.125 $\pm$ 0.443毫米。这些结果表明,该方法能够满足ESS中严格的亚毫米精度标准,具有很高的临床应用价值。

🎯 应用场景

该研究成果可应用于内窥镜鼻窦手术、神经外科手术等需要高精度术中导航和评估的领域。通过提供亚毫米级的3D重建,可以帮助医生更准确地定位病灶、规划手术路径,并评估手术效果,从而提高手术的成功率和安全性。未来,该技术有望与机器人手术系统相结合,实现更精准、微创的手术操作。

📄 摘要(原文)

In endoscopic sinus surgery (ESS), intraoperative CT (iCT) offers valuable intraoperative assessment but is constrained by slow deployment and radiation exposure, limiting its clinical utility. Endoscope-based monocular 3D reconstruction is a promising alternative; however, existing techniques often struggle to achieve the submillimeter precision required for dense reconstruction. In this work, we propose an iterative online learning approach that leverages Neural Radiance Fields (NeRF) as an intermediate representation, enabling monocular depth estimation and 3D reconstruction without relying on prior medical data. Our method attains a point-to-point accuracy below 0.5 mm, with a demonstrated theoretical depth accuracy of 0.125 $\pm$ 0.443 mm. We validate our approach across synthetic, phantom, and real endoscopic scenarios, confirming its accuracy and reliability. These results underscore the potential of our pipeline as an iCT alternative, meeting the demanding submillimeter accuracy standards required in ESS.