Advancing Depth Anything Model for Unsupervised Monocular Depth Estimation in Endoscopy

📄 arXiv: 2409.07723v3 📥 PDF

作者: Bojian Li, Bo Liu, Xinning Yao, Jinghua Yue, Fugen Zhou

分类: cs.CV, cs.AI

发布日期: 2024-09-12 (更新: 2025-07-15)

备注: Accepted by IROS2025, 8 pages, 7 figures


💡 一句话要点

针对内窥镜图像,提出改进的Depth Anything模型用于无监督单目深度估计

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 单目深度估计 内窥镜图像 深度学习 无监督学习 Depth Anything 低秩自适应 深度可分离卷积

📋 核心要点

  1. 现有深度估计网络依赖卷积神经网络,缺乏全局信息捕获能力,限制了内窥镜手术中的三维重建精度。
  2. 论文提出一种基于随机向量的低秩自适应微调策略,并结合深度可分离卷积残差块,提升Depth Anything模型性能。
  3. 实验结果表明,该方法在SCARED和Hamlyn数据集上取得了SOTA性能,同时减少了可训练参数数量。

📝 摘要(中文)

深度估计是三维重建的基石,在微创内窥镜手术中起着至关重要的作用。然而,目前大多数深度估计网络依赖于传统的卷积神经网络,其捕获全局信息的能力有限。基础模型为增强深度估计提供了一种有前景的方法,但目前可用的模型主要在自然图像上训练,导致应用于内窥镜图像时性能欠佳。本文提出了一种新颖的Depth Anything模型微调策略,并将其与基于本征的无监督单目深度估计框架相结合。我们的方法包括一种基于随机向量的低秩自适应技术,提高了模型对不同尺度的适应性。此外,我们提出了一个基于深度可分离卷积的残差块,以弥补Transformer捕获局部特征能力的不足。在SCARED数据集和Hamlyn数据集上的实验结果表明,我们的方法在最小化可训练参数数量的同时,实现了最先进的性能。将该方法应用于微创内窥镜手术可以增强外科医生的空间意识,从而提高手术的精确性和安全性。

🔬 方法详解

问题定义:论文旨在解决内窥镜图像的单目深度估计问题。现有方法,特别是直接应用在自然图像上训练的基础模型,在内窥镜图像上表现不佳,因为内窥镜图像具有独特的纹理、光照和几何特性。此外,传统卷积神经网络难以捕捉全局上下文信息,限制了深度估计的准确性。

核心思路:论文的核心思路是利用预训练的Depth Anything模型作为基础,通过一种高效的微调策略,使其适应内窥镜图像的深度估计任务。同时,通过引入深度可分离卷积残差块,增强模型对局部特征的捕捉能力,弥补Transformer结构的不足。

技术框架:该方法基于一个无监督单目深度估计框架,该框架利用本征图像分解(intrinsic image decomposition)来学习深度。Depth Anything模型作为深度估计的主干网络,通过提出的微调策略进行优化。具体流程包括:首先,使用低秩自适应技术(LoRA)对Depth Anything模型进行微调,使其适应内窥镜图像的尺度变化;其次,将深度可分离卷积残差块添加到模型的某些层,以增强局部特征提取能力;最后,使用无监督损失函数训练整个网络。

关键创新:论文的关键创新在于提出了一种针对Depth Anything模型的微调策略,该策略结合了低秩自适应和深度可分离卷积残差块。低秩自适应通过学习低秩矩阵来更新模型参数,从而减少了可训练参数的数量,提高了训练效率。深度可分离卷积残差块则增强了模型对局部特征的捕捉能力,弥补了Transformer结构的不足。

关键设计:论文采用基于随机向量的低秩自适应技术,具体实现细节未知。深度可分离卷积残差块的具体结构也未知,但其目的是为了增强局部特征提取。损失函数采用无监督损失,具体形式未知,但可能包括光度一致性损失和深度平滑损失等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在SCARED和Hamlyn数据集上取得了state-of-the-art的性能,表明其在内窥镜图像深度估计方面的有效性。同时,该方法通过低秩自适应技术,显著减少了可训练参数的数量,提高了训练效率。具体的性能指标和提升幅度在论文中给出,此处未知。

🎯 应用场景

该研究成果可应用于微创内窥镜手术,通过提供准确的深度信息,增强外科医生的空间感知能力,提高手术的精确性和安全性。此外,该方法还可以应用于其他医学图像处理任务,例如三维重建、病灶检测和手术导航等。未来,该研究有望推动医学影像分析和智能医疗的发展。

📄 摘要(原文)

Depth estimation is a cornerstone of 3D reconstruction and plays a vital role in minimally invasive endoscopic surgeries. However, most current depth estimation networks rely on traditional convolutional neural networks, which are limited in their ability to capture global information. Foundation models offer a promising approach to enhance depth estimation, but those models currently available are primarily trained on natural images, leading to suboptimal performance when applied to endoscopic images. In this work, we introduce a novel fine-tuning strategy for the Depth Anything Model and integrate it with an intrinsic-based unsupervised monocular depth estimation framework. Our approach includes a low-rank adaptation technique based on random vectors, which improves the model's adaptability to different scales. Additionally, we propose a residual block built on depthwise separable convolution to compensate for the transformer's limited ability to capture local features. Our experimental results on the SCARED dataset and Hamlyn dataset show that our method achieves state-of-the-art performance while minimizing the number of trainable parameters. Applying this method in minimally invasive endoscopic surgery can enhance surgeons' spatial awareness, thereby improving the precision and safety of the procedures.