Sim2Real in endoscopy segmentation with a novel structure aware image translation

📄 arXiv: 2505.02654v1 📥 PDF

作者: Clara Tomasini, Luis Riazuelo, Ana C. Murillo

分类: cs.CV

发布日期: 2025-05-05

期刊: In Int. Workshop on Simulation and Synthesis in Medical Imaging (pp. 89-101). Springer Nature (2024)

DOI: 10.1007/978-3-031-73281-2_9


💡 一句话要点

提出一种新颖的图像翻译模型以解决内镜图像分割问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 内镜图像 图像分割 生成对抗网络 医学图像分析 合成数据 深度学习

📋 核心要点

  1. 现有方法在真实内镜图像的标注获取上存在困难,导致训练数据不足,影响模型性能。
  2. 本文提出了一种新颖的图像翻译模型,能够在保持场景结构的同时为合成内镜图像添加逼真纹理。
  3. 实验表明,所提出的方法在折叠分割任务上优于现有方法,生成的图像在形状和位置上更接近真实折叠结构。

📝 摘要(中文)

自动分割内镜图像中的解剖标志可以为医生和外科医生提供诊断、治疗或医学培训的帮助。然而,获取用于训练常用监督学习方法的标注是一项繁琐且困难的任务,尤其是对于真实图像。虽然合成数据的真实标注更易获得,但在此类数据上训练的模型往往无法很好地泛化到真实数据。生成方法可以为合成数据添加逼真的纹理,但在保持原始场景结构方面面临困难。本文的主要贡献是提出了一种新颖的图像翻译模型,该模型为模拟内镜图像添加逼真的纹理,同时保持关键场景布局信息。我们展示了这些图像可以有效用于成功训练一个在没有任何真实标注数据的情况下完成折叠分割的模型。

🔬 方法详解

问题定义:本文旨在解决内镜图像中折叠分割的挑战,现有方法在真实图像标注获取上存在困难,导致模型泛化能力不足。

核心思路:提出一种新颖的图像翻译模型,通过将合成内镜图像转换为逼真的图像,保持关键的场景布局信息,从而提高模型在真实数据上的表现。

技术框架:整体架构包括图像生成模块和结构保持模块。图像生成模块负责添加纹理,而结构保持模块确保场景布局不变。

关键创新:本研究的创新点在于同时实现了纹理的真实感和结构的保持,克服了传统生成方法在这两方面的不足。

关键设计:模型采用特定的损失函数以平衡纹理生成与结构保持,网络结构设计上结合了卷积神经网络和生成对抗网络的优势。具体参数设置和网络层数在实验中经过调优以达到最佳效果。

📊 实验亮点

实验结果显示,所提出的方法在折叠分割任务上显著优于现有基线,生成的图像在形状和位置上保持了更高的准确性。具体而言,模型在合成数据和真实数据上的表现均有显著提升,验证了其有效性。

🎯 应用场景

该研究具有广泛的应用潜力,尤其是在医学图像分析领域。通过提供高质量的合成数据,能够帮助医生进行更准确的诊断和治疗,同时也为医学培训提供了新的工具。未来,该方法有望推广到其他类型的医学成像任务中。

📄 摘要(原文)

Automatic segmentation of anatomical landmarks in endoscopic images can provide assistance to doctors and surgeons for diagnosis, treatments or medical training. However, obtaining the annotations required to train commonly used supervised learning methods is a tedious and difficult task, in particular for real images. While ground truth annotations are easier to obtain for synthetic data, models trained on such data often do not generalize well to real data. Generative approaches can add realistic texture to it, but face difficulties to maintain the structure of the original scene. The main contribution in this work is a novel image translation model that adds realistic texture to simulated endoscopic images while keeping the key scene layout information. Our approach produces realistic images in different endoscopy scenarios. We demonstrate these images can effectively be used to successfully train a model for a challenging end task without any real labeled data. In particular, we demonstrate our approach for the task of fold segmentation in colonoscopy images. Folds are key anatomical landmarks that can occlude parts of the colon mucosa and possible polyps. Our approach generates realistic images maintaining the shape and location of the original folds, after the image-style-translation, better than existing methods. We run experiments both on a novel simulated dataset for fold segmentation, and real data from the EndoMapper (EM) dataset. All our new generated data and new EM metadata is being released to facilitate further research, as no public benchmark is currently available for the task of fold segmentation.