Structure-to-Image: Zero-Shot Depth Estimation in Colonoscopy via High-Fidelity Sim-to-Real Adaptation

📄 arXiv: 2602.21740v1 📥 PDF

作者: Juan Yang, Yuyan Zhang, Han Jia, Bing Hu, Wanzhong Song

分类: cs.CV

发布日期: 2026-02-25

备注: \c{opyright} 20XX IEEE. Personal use of this material is permitted. Permission from IEEE must be obtained for all other uses, in any current or future media, including reprinting/republishing this material for advertising or promotional purposes, creating new collective works, for resale or redistribution to servers or lists, or reuse of any copyrighted component of this work in other works

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于结构到图像的结肠镜零样本深度估计方法,解决结构失真问题。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 结肠镜 单目深度估计 域适应 结构到图像 相位一致性

📋 核心要点

  1. 现有结肠镜单目深度估计方法难以平衡图像真实感和结构一致性,导致结构失真和高光。
  2. 提出Structure-to-Image范式,将深度图作为主动生成基础,并引入相位一致性进行域适应。
  3. 实验表明,使用该方法生成数据微调的深度估计模型,RMSE最多降低44.18%。

📝 摘要(中文)

针对结肠镜单目深度估计(MDE)中模拟图像与真实图像之间的域差异问题,现有方法通常使用深度作为后验约束,但容易产生结构失真和镜面高光,无法平衡真实感和结构一致性。为此,我们提出了一种结构到图像(Structure-to-Image)的范式,将深度图从被动约束转变为主动生成的基础。我们首次将相位一致性引入结肠镜域适应,并设计了一种跨层结构约束,以协同优化几何结构和血管纹理等细粒度细节。在公开的体模数据集上进行的零样本评估表明,经过我们生成的数据微调的MDE模型,与同类方法相比,RMSE最多降低了44.18%。

🔬 方法详解

问题定义:结肠镜单目深度估计(MDE)面临模拟图像与真实图像之间的域差异问题。现有基于图像到图像翻译的方法,虽然利用深度作为后验约束,但往往难以在生成真实图像的同时保持结构的一致性,导致生成图像出现结构失真和镜面高光等问题。这些问题严重影响了深度估计的准确性,限制了其在临床上的应用。

核心思路:论文的核心思路是将深度图从一个被动的约束条件转变为一个主动的生成基础。通过这种方式,模型可以更加关注图像的结构信息,从而更好地保持生成图像的结构一致性。此外,论文还引入了相位一致性(Phase Congruency)的概念,用于更好地进行域适应,从而减小模拟图像和真实图像之间的差异。

技术框架:整体框架是一个Structure-to-Image的生成模型,主要包含以下几个阶段:1) 使用深度图作为输入,生成对应的结肠镜图像;2) 引入相位一致性损失,促使生成图像在结构上与真实图像保持一致;3) 设计跨层结构约束,协同优化几何结构和细粒度细节,如血管纹理。整个框架通过对抗训练的方式进行优化,使得生成图像尽可能逼真。

关键创新:论文最重要的技术创新点在于提出了Structure-to-Image的范式,将深度图作为主动生成的基础,从而更好地保持生成图像的结构一致性。此外,首次将相位一致性引入结肠镜图像的域适应,并设计了跨层结构约束,进一步提升了生成图像的质量。与现有方法相比,该方法更加注重图像的结构信息,从而能够更好地解决结构失真问题。

关键设计:论文的关键设计包括:1) 相位一致性损失:用于衡量生成图像和真实图像在结构上的相似度;2) 跨层结构约束:通过在不同层级的特征图上施加约束,协同优化几何结构和细粒度细节;3) 对抗训练:使用判别器来区分生成图像和真实图像,从而提高生成图像的真实感。具体的网络结构和参数设置在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在公开的体模数据集上进行的零样本评估中,使用该方法生成的数据进行微调的单目深度估计模型,与现有方法相比,RMSE(均方根误差)最多降低了44.18%。这一显著的性能提升表明,该方法能够有效解决结肠镜图像深度估计中的结构失真问题,并提高深度估计的准确性。

🎯 应用场景

该研究成果可应用于辅助结肠镜检查,提高病灶检测的准确性和效率。通过生成高质量的合成图像,可以有效扩充训练数据集,提升深度估计模型的泛化能力。未来,该技术有望应用于开发更智能的结肠镜导航系统和辅助诊断工具,从而改善患者的诊疗体验。

📄 摘要(原文)

Monocular depth estimation (MDE) for colonoscopy is hampered by the domain gap between simulated and real-world images. Existing image-to-image translation methods, which use depth as a posterior constraint, often produce structural distortions and specular highlights by failing to balance realism with structure consistency. To address this, we propose a Structure-to-Image paradigm that transforms the depth map from a passive constraint into an active generative foundation. We are the first to introduce phase congruency to colonoscopic domain adaptation and design a cross-level structure constraint to co-optimize geometric structures and fine-grained details like vascular textures. In zero-shot evaluations conducted on a publicly available phantom dataset, the MDE model that was fine-tuned on our generated data achieved a maximum reduction of 44.18% in RMSE compared to competing methods. Our code is available at https://github.com/YyangJJuan/PC-S2I.git.