EndoSfM3D: Learning to 3D Reconstruct Any Endoscopic Surgery Scene using Self-supervised Foundation Model

作者: Changhao Zhang, Matthew J. Clarkson, Mobarak I. Hoque

分类: cs.CV

发布日期: 2025-10-25

备注: 11 pages

🔗 代码/项目: GITHUB

💡 一句话要点

EndoSfM3D：利用自监督基础模型学习内窥镜手术场景的3D重建

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 内窥镜3D重建 自监督学习 单目深度估计 固有参数估计 深度学习 手术导航

📋 核心要点

现有内窥镜3D重建方法难以准确估计内窥镜的固有参数，限制了重建的准确性和可靠性。
论文提出EndoSfM3D，通过自监督学习联合估计深度、姿态和内窥镜固有参数，提升重建效果。
实验表明，该方法在SCARED和C3VD数据集上优于现有自监督单目深度估计和3D重建方法。

📝 摘要（中文）

内窥镜手术场景的3D重建在增强场景感知、实现AR可视化以及支持图像引导手术中上下文感知的决策制定方面起着至关重要的作用。该过程中的一个关键但具有挑战性的步骤是准确估计内窥镜的固有参数。在实际手术环境中，固有参数的标定受到无菌约束以及使用具有连续变焦和望远镜旋转的专用内窥镜的限制。大多数现有的内窥镜3D重建方法不估计固有参数，限制了它们在准确和可靠重建方面的有效性。在本文中，我们通过调整Depth Anything V2 (DA2)模型以进行联合深度、姿态和固有参数预测，将固有参数估计集成到自监督单目深度估计框架中。我们引入了一个基于注意力的姿态网络和一个权重分解的低秩适应(DoRA)策略，用于DA2的有效微调。我们的方法在SCARED和C3VD公共数据集上进行了验证，证明了与最近最先进的自监督单目深度估计和3D重建方法相比，具有优越的性能。

🔬 方法详解

问题定义：内窥镜手术场景的3D重建需要准确的内窥镜固有参数，但实际手术环境的无菌要求和专用内窥镜的复杂性使得传统标定方法难以应用。现有方法通常忽略或简化固有参数估计，导致重建精度受限。

核心思路：利用自监督学习框架，将内窥镜固有参数估计融入到单目深度估计中，通过最小化重建误差来联合优化深度、姿态和固有参数。核心在于利用深度估计模型Depth Anything V2 (DA2)的强大表征能力，并对其进行高效微调。

技术框架：整体框架基于单目视频序列，首先使用DA2模型预测深度图，然后通过引入的姿态网络估计相机姿态，并联合优化内窥镜固有参数。整个过程通过自监督方式进行，无需外部标定数据。主要模块包括：深度估计模块（DA2）、姿态估计模块（Attention-based Pose Network）和固有参数优化模块。

关键创新：主要创新在于将深度估计、姿态估计和固有参数估计集成到一个自监督框架中，实现了端到端的优化。此外，引入了Attention-based Pose Network来提升姿态估计的准确性，并采用Weight-Decomposed Low-Rank Adaptation (DoRA)策略来高效微调DA2模型。

关键设计：Attention-based Pose Network使用注意力机制来关注图像中的关键区域，从而提升姿态估计的鲁棒性。DoRA策略通过分解权重矩阵并进行低秩更新，显著减少了微调DA2模型所需的计算资源和时间。损失函数设计为光度一致性误差和深度一致性误差的加权和，用于约束深度、姿态和固有参数的优化。

🖼️ 关键图片

📊 实验亮点

实验结果表明，EndoSfM3D在SCARED和C3VD数据集上显著优于现有的自监督单目深度估计和3D重建方法。通过引入Attention-based Pose Network和DoRA策略，该方法在保证精度的同时，实现了高效的微调。项目代码和模型权重已开源，方便研究人员复现和进一步研究。

🎯 应用场景

该研究成果可应用于增强内窥镜手术的场景感知，为医生提供更准确的3D信息，辅助手术规划和导航。通过AR可视化，医生可以在手术过程中实时查看重建的3D模型，提高手术精度和安全性。此外，该技术还可用于内窥镜手术的机器人辅助和远程手术。

📄 摘要（原文）

3D reconstruction of endoscopic surgery scenes plays a vital role in enhancing scene perception, enabling AR visualization, and supporting context-aware decision-making in image-guided surgery. A critical yet challenging step in this process is the accurate estimation of the endoscope's intrinsic parameters. In real surgical settings, intrinsic calibration is hindered by sterility constraints and the use of specialized endoscopes with continuous zoom and telescope rotation. Most existing methods for endoscopic 3D reconstruction do not estimate intrinsic parameters, limiting their effectiveness for accurate and reliable reconstruction. In this paper, we integrate intrinsic parameter estimation into a self-supervised monocular depth estimation framework by adapting the Depth Anything V2 (DA2) model for joint depth, pose, and intrinsics prediction. We introduce an attention-based pose network and a Weight-Decomposed Low-Rank Adaptation (DoRA) strategy for efficient fine-tuning of DA2. Our method is validated on the SCARED and C3VD public datasets, demonstrating superior performance compared to recent state-of-the-art approaches in self-supervised monocular depth estimation and 3D reconstruction. Code and model weights can be found in project repository: https://github.com/MOYF-beta/EndoSfM3D.

EndoSfM3D: Learning to 3D Reconstruct Any Endoscopic Surgery Scene using Self-supervised Foundation Model

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理