CoGE: Sim-to-Real Online Geometric Estimation for Monocular Colonoscopy
作者: Liangjing Shao, Beilei Cui, Hongliang Ren
分类: cs.CV, cs.AI
发布日期: 2026-05-13
备注: Early Accepted by MICCAI 2026
💡 一句话要点
CoGE:用于单目结肠镜的Sim-to-Real在线几何估计框架
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 单目视觉 几何估计 Sim-to-Real 结肠镜 深度估计 场景重建 Retinex理论 小波分解
📋 核心要点
- 结肠镜检查中几何信息的获取面临真实数据匮乏和模拟数据与真实数据存在较大差距的挑战。
- CoGE框架通过光照感知监督模块和结构感知感知模块,弥合模拟数据和真实数据之间的差距。
- 实验结果表明,CoGE框架仅使用模拟数据训练,即可在真实结肠镜图像上实现优秀的几何估计性能。
📝 摘要(中文)
本文提出CoGE,一个用于结肠镜检查期间在线单目几何估计的新框架。结肠镜检查中的深度估计和场景重建对于为外科医生提供3D空间感知和导航至关重要。然而,由于结肠的狭窄和封闭空间,很难获得结肠镜检查中的几何真值。同时,由于伪影和光照,模拟数据和真实数据之间存在很大的特征差距。为了解决这些问题,我们提出了一个基于Retinex理论的光照感知监督模块,以解决不同结肠镜场景中的光照多样性。此外,还提出了一种基于小波分解的结构感知感知模块,以提取结肠的常见结构和局部特征。定量和定性结果表明,该模型仅在模拟数据上训练,即可在模拟和真实场景的几何估计中实现最先进的性能。
🔬 方法详解
问题定义:结肠镜检查中的几何估计,包括深度估计和场景重建,对于医生进行导航至关重要。然而,由于结肠内部环境的特殊性,难以获取真实的深度信息作为监督信号。同时,模拟数据与真实数据之间存在显著的特征差异,直接使用模拟数据训练的模型在真实场景中表现不佳。现有方法难以有效解决Sim-to-Real的迁移问题。
核心思路:CoGE的核心思路是通过设计光照感知和结构感知的模块,缩小模拟数据和真实数据之间的特征差距。光照感知模块旨在处理真实结肠镜图像中复杂的光照变化,而结构感知模块则专注于提取结肠壁的结构信息,从而提高模型的泛化能力。
技术框架:CoGE框架主要包含两个核心模块:光照感知监督模块和结构感知感知模块。光照感知监督模块基于Retinex理论,用于解耦图像的光照和反射分量,并对光照分量进行约束,从而提高模型对光照变化的鲁棒性。结构感知感知模块则利用小波分解提取图像的结构和局部特征,从而更好地捕捉结肠壁的几何信息。整个框架采用端到端的方式进行训练,直接从模拟数据学习几何估计模型。
关键创新:CoGE的关键创新在于其针对结肠镜图像特点设计的光照感知和结构感知模块。光照感知模块利用Retinex理论,显式地建模光照变化,从而提高了模型对光照变化的适应性。结构感知模块则利用小波分解,有效地提取了结肠壁的结构信息,从而提高了模型的几何估计精度。这种针对特定场景设计的模块化方法,使得模型能够更好地适应真实结肠镜图像的特点。
关键设计:光照感知监督模块中,Retinex理论被用于将图像分解为光照分量和反射分量。损失函数被设计为约束光照分量的平滑性,从而提高光照估计的准确性。结构感知模块中,小波分解被用于提取不同尺度的图像特征。损失函数被设计为鼓励模型学习不同尺度特征之间的关系,从而提高模型的结构感知能力。具体的网络结构和参数设置在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
CoGE框架在模拟和真实结肠镜图像上都取得了state-of-the-art的几何估计性能。实验结果表明,CoGE框架能够有效地缩小模拟数据和真实数据之间的差距,并且在真实场景中具有良好的泛化能力。具体的性能指标,如深度估计的均方误差和场景重建的精度,在论文中有详细的定量分析。
🎯 应用场景
CoGE框架可应用于辅助结肠镜检查,为医生提供实时的3D场景重建和深度信息,从而提高手术的精确性和安全性。该技术还可用于开发自动导航系统,引导结肠镜到达目标位置。此外,该研究思路可以推广到其他医学图像分析领域,例如内窥镜手术和病灶检测。
📄 摘要(原文)
Geometric estimation including depth estimation and scene reconstruction is a crucial technique for colonoscopy which can provide surgeons with 3D spatial perception and navigation. However, geometric ground truth in colonoscopy is difficult to obtain due to narrow and enclosed space of the colon, while there is a large feature gap between simulated data and realistic data caused by artifacts and illumination. In this paper, we present CoGE, a novel framework for online monocular geometric estimation during colonoscopy. Firstly, we propose an illumination-aware supervision module based on the Retinex theory to address illumination diversity in different colonoscopy scenes. Moreover, a structure-aware perception module is proposed based on wavelet decomposition to extract common structural and local features of the colon. Both quantitative and qualitative results demonstrate that the proposed model solely trained on simulated data achieves state-of-the-art performance in geometric estimation for both simulated and realistic scenes.