Occlusion-Aware Self-Supervised Monocular Depth Estimation for Weak-Texture Endoscopic Images
作者: Zebo Huang, Yinghui Wang
分类: cs.CV
发布日期: 2025-04-24
💡 一句话要点
提出一种遮挡感知自监督单目深度估计方法,用于弱纹理内窥镜图像。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 单目深度估计 自监督学习 内窥镜图像 遮挡感知 语义分割 弱纹理 数据增强
📋 核心要点
- 现有单目深度估计方法在内窥镜图像中,由于光照变化和遮挡问题,导致几何信息错误和自监督信号不可靠。
- 该方法通过引入遮挡掩码进行数据增强,并结合语义分割生成伪标签,从而提高模型对遮挡和光照变化的鲁棒性。
- 实验结果表明,该方法在SCARED数据集上取得了SOTA性能,并在Endo-SLAM和SERV-CT数据集上表现出良好的泛化能力。
📝 摘要(中文)
本文提出了一种专为内窥镜场景设计的自监督单目深度估计网络,旨在从单目图像中推断胃肠道内的深度信息。现有方法虽然准确,但通常假设光照一致,而这在实际中由于动态光照和胃肠蠕动引起的遮挡而经常被违反。这些变化导致不正确的几何解释和不可靠的自监督信号,从而降低深度重建质量。为了解决这个问题,我们引入了一个遮挡感知的自监督框架。首先,我们引入一个遮挡掩码进行数据增强,通过模拟视角相关的遮挡场景来生成伪标签,从而增强模型在部分可见性下学习鲁棒深度特征的能力。其次,我们利用非负矩阵分解引导的语义分割,通过聚类卷积激活在纹理匮乏区域生成伪标签,从而提高分割精度并减轻光照变化造成的信息损失。在SCARED数据集上的实验结果表明,我们的方法在自监督深度估计方面取得了最先进的性能。此外,在Endo-SLAM和SERV-CT数据集上的评估表明,该方法在不同的内窥镜环境中具有很强的泛化能力。
🔬 方法详解
问题定义:论文旨在解决内窥镜图像的单目深度估计问题。现有方法在处理内窥镜图像时,由于光照变化剧烈、弱纹理区域多以及存在大量遮挡,导致深度估计精度下降。这些因素破坏了传统方法所依赖的光照一致性和几何约束,使得自监督信号变得不可靠。
核心思路:论文的核心思路是构建一个遮挡感知的自监督学习框架,通过模拟遮挡和利用语义信息来增强模型对复杂内窥镜场景的适应性。具体来说,通过数据增强模拟遮挡,使模型学习在部分可见的情况下进行深度估计;同时,利用语义分割在弱纹理区域生成伪标签,弥补信息缺失。
技术框架:整体框架包含两个主要部分:遮挡感知的数据增强和语义引导的伪标签生成。首先,通过随机生成遮挡掩码并将其应用于输入图像,模拟不同程度的遮挡情况。然后,利用非负矩阵分解(NMF)引导的语义分割,在纹理匮乏区域生成伪标签。最后,使用这些增强的数据和伪标签训练深度估计网络。
关键创新:论文的关键创新在于将遮挡感知和语义信息融入到自监督深度估计框架中。传统的自监督方法往往忽略了内窥镜图像中普遍存在的遮挡问题,而该方法通过数据增强显式地模拟遮挡,提高了模型的鲁棒性。此外,利用NMF引导的语义分割,有效地解决了弱纹理区域的深度估计问题。
关键设计:在数据增强方面,遮挡掩码的大小和位置是随机生成的,以模拟各种遮挡情况。在语义分割方面,使用NMF对卷积激活进行聚类,生成具有语义意义的伪标签。损失函数包括光度一致性损失、平滑损失和语义一致性损失,以保证深度估计的准确性和一致性。网络结构采用编码器-解码器结构,编码器提取图像特征,解码器根据特征重建深度图。
📊 实验亮点
该方法在SCARED数据集上取得了state-of-the-art的自监督深度估计性能。此外,在Endo-SLAM和SERV-CT数据集上的实验结果表明,该方法具有良好的泛化能力,能够适应不同的内窥镜场景。相较于其他自监督方法,该方法在遮挡和弱纹理区域的深度估计精度有显著提升。
🎯 应用场景
该研究成果可应用于内窥镜手术导航、机器人辅助诊断和治疗等领域。准确的深度信息能够帮助医生更好地理解病灶的三维结构,提高手术的精确性和安全性。此外,该技术还可以用于开发智能内窥镜系统,实现自动病灶检测和诊断,从而提高医疗效率和降低医疗成本。
📄 摘要(原文)
We propose a self-supervised monocular depth estimation network tailored for endoscopic scenes, aiming to infer depth within the gastrointestinal tract from monocular images. Existing methods, though accurate, typically assume consistent illumination, which is often violated due to dynamic lighting and occlusions caused by GI motility. These variations lead to incorrect geometric interpretations and unreliable self-supervised signals, degrading depth reconstruction quality. To address this, we introduce an occlusion-aware self-supervised framework. First, we incorporate an occlusion mask for data augmentation, generating pseudo-labels by simulating viewpoint-dependent occlusion scenarios. This enhances the model's ability to learn robust depth features under partial visibility. Second, we leverage semantic segmentation guided by non-negative matrix factorization, clustering convolutional activations to generate pseudo-labels in texture-deprived regions, thereby improving segmentation accuracy and mitigating information loss from lighting changes. Experimental results on the SCARED dataset show that our method achieves state-of-the-art performance in self-supervised depth estimation. Additionally, evaluations on the Endo-SLAM and SERV-CT datasets demonstrate strong generalization across diverse endoscopic environments.