SHADeS: Self-supervised Monocular Depth Estimation Through Non-Lambertian Image Decomposition

作者: Rema Daher, Francisco Vasconcelos, Danail Stoyanov

分类: cs.CV

发布日期: 2025-02-18

🔗 代码/项目: GITHUB

💡 一句话要点

提出SHADeS模型，通过非朗伯图像分解实现结肠镜视频中的自监督单目深度估计。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 单目深度估计 自监督学习 非朗伯图像分解 结肠镜导航 镜面反射建模

📋 核心要点

结肠镜视频中的深度估计受镜面反射影响，传统方法难以有效分离光照和深度信息。
SHADeS模型采用非朗伯模型，将镜面反射作为独立光照分量，实现光照分解和深度估计。
实验表明，SHADeS在真实和体模结肠镜数据上，对镜面反射具有更强的鲁棒性，提升深度估计精度。

📝 摘要（中文）

本研究旨在解决结肠镜导航中视觉3D场景重建问题，该问题面临复杂的光照变化，包括大量的镜面反射。我们提出了一种自监督模型，可以同时表征可视化结肠镜场景的形状和光照。我们的模型从单张图像中估计阴影、反照率、深度和镜面反射（SHADeS）。与以往的方法（IID）不同，我们使用非朗伯模型，将镜面反射视为单独的光照分量。在真实结肠镜图像（Hyper Kvasir）上，我们证明了先前的光照分解（IID）和深度估计（MonoVIT、ModoDepth2）模型受到镜面反射的负面影响。相比之下，SHADeS可以同时生成对镜面区域具有鲁棒性的光照分解和深度图。我们还在体模数据（C3VD）上进行了定量比较，进一步证明了我们模型的鲁棒性。结论是，对镜面反射进行建模可以改善结肠镜中的深度估计。我们提出了一种有效的自监督方法，该方法利用这一见解来联合估计光照分解和深度。光照分解有可能帮助解决其他问题，例如结肠内的位置识别。

🔬 方法详解

问题定义：结肠镜视频中的三维重建受到复杂光照变化，特别是镜面反射的严重影响。传统方法，如基于朗伯表面的光照分解（IID）和深度估计模型，在处理这些镜面反射时性能显著下降，导致深度估计不准确，影响后续的导航和息肉形状分析等任务。

核心思路：SHADeS的核心在于将镜面反射显式地建模为一个独立的光照分量，从而摆脱朗伯表面的限制。通过非朗伯图像分解，模型能够更准确地分离光照和深度信息，从而实现对镜面反射具有鲁棒性的深度估计。这种方法更符合实际的结肠镜成像环境。

技术框架：SHADeS是一个自监督学习框架，它从单张结肠镜图像中同时估计阴影、反照率、深度和镜面反射。整体流程包括：输入单张图像，通过深度估计网络、光照分解网络分别预测深度图和光照分量（包括漫反射和镜面反射），然后利用渲染损失函数进行自监督训练。

关键创新：SHADeS的关键创新在于其非朗伯光照模型，它将镜面反射显式地建模为一个独立的分量。这与传统的基于朗伯表面的方法形成鲜明对比，后者假设表面是完全漫反射的，无法处理镜面反射。通过显式建模镜面反射，SHADeS能够更准确地估计深度和光照信息。

关键设计：SHADeS使用深度估计网络（例如，基于Transformer的结构）和光照分解网络（例如，卷积神经网络）来分别预测深度图和光照分量。损失函数包括光度一致性损失（photometric consistency loss），用于约束渲染图像与原始图像的一致性；深度平滑损失（depth smoothness loss），用于保证深度图的平滑性；以及光照正则化损失（illumination regularization loss），用于约束光照分量的合理性。具体的网络结构和损失函数权重需要根据实验进行调整。

🖼️ 关键图片

📊 实验亮点

在真实结肠镜图像（Hyper Kvasir）和体模数据（C3VD）上的实验表明，SHADeS模型优于传统的光照分解方法（IID）和深度估计方法（MonoViT, ModoDepth2）。SHADeS能够生成对镜面反射具有鲁棒性的深度图，显著提升了深度估计的准确性。定量结果表明，SHADeS在C3VD数据集上取得了最佳的深度估计性能。

🎯 应用场景

SHADeS模型在结肠镜导航中具有重要应用价值，可以提高三维重建的准确性，辅助医生识别已观察区域和息肉的形状大小。此外，光照分解结果可用于结肠内的位置识别，帮助医生更好地定位和导航。该技术还可扩展到其他内窥镜应用，如胃镜和支气管镜等。

📄 摘要（原文）

Purpose: Visual 3D scene reconstruction can support colonoscopy navigation. It can help in recognising which portions of the colon have been visualised and characterising the size and shape of polyps. This is still a very challenging problem due to complex illumination variations, including abundant specular reflections. We investigate how to effectively decouple light and depth in this problem. Methods: We introduce a self-supervised model that simultaneously characterises the shape and lighting of the visualised colonoscopy scene. Our model estimates shading, albedo, depth, and specularities (SHADeS) from single images. Unlike previous approaches (IID), we use a non-Lambertian model that treats specular reflections as a separate light component. The implementation of our method is available at https://github.com/RemaDaher/SHADeS. Results: We demonstrate on real colonoscopy images (Hyper Kvasir) that previous models for light decomposition (IID) and depth estimation (MonoVIT, ModoDepth2) are negatively affected by specularities. In contrast, SHADeS can simultaneously produce light decomposition and depth maps that are robust to specular regions. We also perform a quantitative comparison on phantom data (C3VD) where we further demonstrate the robustness of our model. Conclusion: Modelling specular reflections improves depth estimation in colonoscopy. We propose an effective self-supervised approach that uses this insight to jointly estimate light decomposition and depth. Light decomposition has the potential to help with other problems, such as place recognition within the colon.

SHADeS: Self-supervised Monocular Depth Estimation Through Non-Lambertian Image Decomposition

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理