Endoscopic Depth Estimation Based on Deep Learning: A Survey

📄 arXiv: 2507.20881v2 📥 PDF

作者: Ke Niu, Zeyun Liu, Xue Feng, Heng Li, Qika Lin, Kaize Shi

分类: cs.CV, cs.GR

发布日期: 2025-07-28 (更新: 2025-10-15)


💡 一句话要点

综述:基于深度学习的内窥镜深度估计技术,聚焦数据、方法与应用

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 内窥镜 深度估计 深度学习 微创手术 医学影像 计算机视觉 机器人 综述

📋 核心要点

  1. 现有内窥镜深度估计方法在数据获取、模型泛化和实时性方面存在挑战,限制了其临床应用。
  2. 本文从数据、方法和应用三个维度,系统性地综述了基于深度学习的内窥镜深度估计技术。
  3. 该综述旨在为研究人员提供一个全面的起点,以促进内窥镜深度估计技术向临床转化。

📝 摘要(中文)

内窥镜深度估计是提高微创手术安全性和精确性的关键技术,受到了医学影像、计算机视觉和机器人领域研究人员的广泛关注。过去十年中,涌现了大量相关方法。尽管已经存在一些相关综述,但针对近期基于深度学习的技术的全面概述仍然有限。本文旨在弥合这一差距,系统地回顾最新的文献。具体而言,我们从三个关键角度对该领域进行了全面的综述:数据、方法和应用。首先,在数据层面,我们描述了公开可用数据集的获取过程。其次,在方法层面,我们介绍了基于单目和立体深度学习的内窥镜深度估计方法。第三,在应用层面,我们确定了深度估计技术在临床实施中面临的具体挑战和相应的解决方案,并将其置于具体的临床场景中。最后,我们概述了未来研究的潜在方向,例如领域自适应、实时实现以及深度信息与传感器技术的协同融合,从而为研究人员参与和推进该领域向临床转化提供了一个有价值的起点。

🔬 方法详解

问题定义:内窥镜深度估计旨在从内窥镜图像中恢复场景的深度信息,为医生提供更精确的手术导航和规划。现有方法面临的痛点包括:缺乏大规模、高质量的内窥镜数据集;模型在不同内窥镜设备和患者间的泛化能力不足;以及难以满足实时手术的需求。

核心思路:本文的核心思路是对现有基于深度学习的内窥镜深度估计方法进行系统性的分类和总结,从数据、方法和应用三个维度分析其优缺点,并指出未来的发展方向。通过梳理现有技术,为研究人员提供一个清晰的框架,从而更好地理解和解决内窥镜深度估计中的关键问题。

技术框架:本文的综述框架主要包含三个部分:数据、方法和应用。在数据部分,介绍了公开可用的内窥镜数据集,包括其获取方式、数据特点和适用范围。在方法部分,详细介绍了基于单目和立体视觉的深度学习方法,包括其网络结构、损失函数和训练策略。在应用部分,讨论了深度估计技术在临床应用中面临的挑战和解决方案,并分析了其在不同临床场景中的应用前景。

关键创新:本文的创新之处在于其全面性和系统性。与以往的综述相比,本文更加关注基于深度学习的最新技术,并从数据、方法和应用三个维度对其进行深入分析。此外,本文还对内窥镜深度估计技术在临床应用中面临的挑战和解决方案进行了详细的讨论,为研究人员提供了更具实践指导意义的建议。

关键设计:本文对各种深度学习方法的网络结构、损失函数和训练策略进行了详细的描述。例如,对于单目深度估计,介绍了基于卷积神经网络(CNN)和Transformer的方法,并分析了不同网络结构对深度估计精度的影响。对于立体深度估计,介绍了基于匹配代价聚合和端到端学习的方法,并讨论了不同损失函数对深度估计鲁棒性的影响。此外,本文还对数据增强、领域自适应等技术进行了介绍,并分析了其在提高模型泛化能力方面的作用。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

本文对近年来涌现的基于深度学习的内窥镜深度估计方法进行了全面的综述,涵盖了单目和立体视觉方法,并分析了各种方法的优缺点。此外,本文还对公开可用的内窥镜数据集进行了详细的介绍,并讨论了深度估计技术在临床应用中面临的挑战和解决方案。这些内容为研究人员提供了一个有价值的参考。

🎯 应用场景

内窥镜深度估计技术在微创手术、机器人辅助手术、计算机辅助诊断等领域具有广泛的应用前景。它可以帮助医生更精确地定位病灶、规划手术路径、评估手术效果,从而提高手术的安全性和有效性。未来,随着技术的不断发展,内窥镜深度估计有望在临床实践中发挥更大的作用。

📄 摘要(原文)

Endoscopic depth estimation is a critical technology for improving the safety and precision of minimally invasive surgery. It has attracted considerable attention from researchers in medical imaging, computer vision, and robotics. Over the past decade, a large number of methods have been developed. Despite the existence of several related surveys, a comprehensive overview focusing on recent deep learning-based techniques is still limited. This paper endeavors to bridge this gap by systematically reviewing the state-of-the-art literature. Specifically, we provide a thorough survey of the field from three key perspectives: data, methods, and applications. Firstly, at the data level, we describe the acquisition process of publicly available datasets. Secondly, at the methodological level, we introduce both monocular and stereo deep learning-based approaches for endoscopic depth estimation. Thirdly, at the application level, we identify the specific challenges and corresponding solutions for the clinical implementation of depth estimation technology, situated within concrete clinical scenarios. Finally, we outline potential directions for future research, such as domain adaptation, real-time implementation, and the synergistic fusion of depth information with sensor technologies, thereby providing a valuable starting point for researchers to engage with and advance the field toward clinical translation.