Sim2Real in endoscopy segmentation with a novel structure aware image translation

📄 arXiv: 2505.02654v1 📥 PDF

作者: Clara Tomasini, Luis Riazuelo, Ana C. Murillo

分类: cs.CV

发布日期: 2025-05-05

期刊: In Int. Workshop on Simulation and Synthesis in Medical Imaging (pp. 89-101). Springer Nature (2024)

DOI: 10.1007/978-3-031-73281-2_9


💡 一句话要点

提出一种结构感知图像转换方法,用于内窥镜图像分割中的Sim2Real问题。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 内窥镜图像分割 Sim2Real 图像翻译 生成对抗网络 结构感知 褶皱分割 医学图像处理

📋 核心要点

  1. 内窥镜图像分割标注困难,合成数据训练的模型泛化性差,现有生成方法难以保持场景结构。
  2. 提出一种结构感知图像转换模型,为模拟内窥镜图像添加逼真纹理,同时保留关键场景布局信息。
  3. 实验表明,该方法生成的图像可有效训练褶皱分割模型,优于现有方法,并在新数据集上进行了验证。

📝 摘要(中文)

内窥镜图像中解剖标志的自动分割可以为医生和外科医生在诊断、治疗或医学培训方面提供帮助。然而,获取训练常用监督学习方法所需的标注是一项繁琐而困难的任务,特别是对于真实图像。虽然合成数据更容易获得ground truth标注,但在此类数据上训练的模型通常不能很好地泛化到真实数据。生成方法可以为合成数据添加逼真的纹理,但难以保持原始场景的结构。本文的主要贡献是一种新的图像转换模型,它为模拟内窥镜图像添加逼真的纹理,同时保持关键的场景布局信息。我们的方法在不同的内窥镜场景中生成逼真的图像。我们证明这些图像可以有效地用于成功训练一个具有挑战性的终端任务的模型,而无需任何真实标记数据。特别是,我们展示了我们的方法在结肠镜图像中褶皱分割任务中的应用。褶皱是关键的解剖标志,可能会遮挡结肠粘膜和可能的息肉。我们的方法生成逼真的图像,在图像风格转换后,比现有方法更好地保持原始褶皱的形状和位置。我们在一个新的褶皱分割模拟数据集和来自EndoMapper (EM)数据集的真实数据上进行了实验。我们所有的新生成数据和新的EM元数据都将被发布,以促进进一步的研究,因为目前没有可用于褶皱分割任务的公共基准。

🔬 方法详解

问题定义:论文旨在解决内窥镜图像分割中,真实数据标注困难,而合成数据训练的模型泛化性差的问题。现有图像翻译方法在将合成图像转换为真实图像时,难以保持原始图像的结构信息,导致分割性能下降。

核心思路:论文的核心思路是设计一种结构感知的图像翻译模型,该模型能够在添加逼真纹理的同时,尽可能地保留原始合成图像的结构信息。通过这种方式,可以利用合成数据生成更接近真实数据的图像,从而提高分割模型的泛化能力。

技术框架:该方法采用一种基于生成对抗网络(GAN)的图像翻译框架。整体流程包括:首先,使用模拟器生成合成内窥镜图像;然后,将合成图像输入到结构感知图像翻译模型中,生成逼真的图像;最后,使用生成的图像训练分割模型。

关键创新:该方法最重要的创新点在于其结构感知能力。具体来说,模型在图像翻译过程中,会显式地考虑图像的结构信息,例如边缘、角点等。通过引入结构损失函数,可以约束生成图像的结构与原始图像尽可能相似。

关键设计:模型使用了GAN的结构,包括生成器和判别器。生成器的目标是将合成图像转换为逼真的图像,判别器的目标是区分生成的图像和真实的图像。除了标准的GAN损失函数外,模型还引入了结构损失函数,例如边缘损失和梯度损失,以约束生成图像的结构。具体的网络结构和参数设置在论文中有详细描述,但摘要中未提及具体数值。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文在褶皱分割任务上进行了实验,结果表明,该方法生成的图像可以有效地训练分割模型,并且优于现有的图像翻译方法。具体性能提升数据未知,但论文强调了在保持褶皱形状和位置方面的优势。同时,论文还发布了新的模拟数据集和EndoMapper数据集的元数据,为后续研究提供了便利。

🎯 应用场景

该研究成果可应用于内窥镜辅助诊断、手术导航和医学培训等领域。通过自动分割内窥镜图像中的解剖标志,可以帮助医生更准确地识别病灶,提高诊断效率和治疗效果。此外,该方法还可以用于生成大量的标注数据,从而降低数据标注成本,促进内窥镜图像分析技术的发展。

📄 摘要(原文)

Automatic segmentation of anatomical landmarks in endoscopic images can provide assistance to doctors and surgeons for diagnosis, treatments or medical training. However, obtaining the annotations required to train commonly used supervised learning methods is a tedious and difficult task, in particular for real images. While ground truth annotations are easier to obtain for synthetic data, models trained on such data often do not generalize well to real data. Generative approaches can add realistic texture to it, but face difficulties to maintain the structure of the original scene. The main contribution in this work is a novel image translation model that adds realistic texture to simulated endoscopic images while keeping the key scene layout information. Our approach produces realistic images in different endoscopy scenarios. We demonstrate these images can effectively be used to successfully train a model for a challenging end task without any real labeled data. In particular, we demonstrate our approach for the task of fold segmentation in colonoscopy images. Folds are key anatomical landmarks that can occlude parts of the colon mucosa and possible polyps. Our approach generates realistic images maintaining the shape and location of the original folds, after the image-style-translation, better than existing methods. We run experiments both on a novel simulated dataset for fold segmentation, and real data from the EndoMapper (EM) dataset. All our new generated data and new EM metadata is being released to facilitate further research, as no public benchmark is currently available for the task of fold segmentation.