Controllable retinal image synthesis using conditional StyleGAN and latent space manipulation for improved diagnosis and grading of diabetic retinopathy

📄 arXiv: 2409.07422v1 📥 PDF

作者: Somayeh Pakdelmoez, Saba Omidikia, Seyyed Ali Seyyedsalehi, Seyyede Zohreh Seyyedsalehi

分类: eess.IV, cs.CV

发布日期: 2024-09-11

备注: 30 pages, 17 figures


💡 一句话要点

提出基于条件StyleGAN和潜在空间操控的视网膜图像生成方法,提升糖尿病视网膜病变诊断。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 糖尿病视网膜病变 图像生成 条件StyleGAN 潜在空间操控 数据增强

📋 核心要点

  1. 现有糖尿病视网膜病变分级模型训练面临标注数据不足,特别是严重病例数据匮乏的挑战。
  2. 提出利用条件StyleGAN,通过潜在空间语义操控,可控地生成高质量、多样化的视网膜图像,无需额外辅助网络。
  3. 实验表明,该方法显著提升了DR检测和分级模型的性能,在APTOS 2019数据集上取得了优异的结果。

📝 摘要(中文)

糖尿病视网膜病变(DR)是糖尿病的并发症,其特征是视网膜组织内的血管损伤。及时检测对于降低视力丧失的风险至关重要。然而,训练稳健的分级模型受到带注释数据短缺的限制,特别是对于严重病例。本文提出了一个框架,用于可控地生成高保真和多样化的DR眼底图像,从而提高DR分级和检测中分类器的性能。我们仅通过条件StyleGAN实现了对生成图像中DR严重程度和视觉特征(视盘、血管结构、病灶区域)的全面控制,无需特征掩码或辅助网络。具体来说,利用SeFa算法识别潜在空间中有意义的语义,我们操纵条件生成的DR图像,进一步增强数据集的多样性。此外,我们提出了一种新颖有效的基于SeFa的数据增强策略,帮助分类器专注于区分性区域,同时忽略冗余特征。使用这种方法,训练用于DR检测的ResNet50模型实现了98.09%的准确率,99.44%的特异性,99.45%的精确率和98.09%的F1分数。此外,将条件StyleGAN生成的合成图像纳入ResNet50的DR分级训练,可产生83.33%的准确率,87.64%的二次kappa分数,95.67%的特异性和72.24%的精确率。在APTOS 2019数据集上进行的大量实验证明了生成图像的卓越真实感以及我们的分类器相对于最近研究的卓越性能。

🔬 方法详解

问题定义:糖尿病视网膜病变(DR)的自动诊断和分级依赖于大量的标注数据,但获取足够数量的、特别是严重程度较高的DR图像非常困难。现有的数据增强方法通常无法生成足够逼真和多样化的图像,限制了模型的泛化能力。因此,如何生成高质量、可控的DR图像,以缓解数据不足的问题,是本文要解决的核心问题。

核心思路:本文的核心思路是利用条件StyleGAN强大的图像生成能力,并结合潜在空间语义解耦方法SeFa,实现对生成图像的细粒度控制。通过条件StyleGAN,可以根据DR的严重程度生成不同等级的图像;通过SeFa,可以操控潜在空间中的语义向量,从而控制图像中的特定视觉特征,如视盘、血管和病灶区域。这种方法无需额外的特征掩码或辅助网络,简化了生成流程,提高了生成效率。

技术框架:整体框架包括两个主要阶段:1) 条件StyleGAN的训练:使用带有DR等级标签的眼底图像训练条件StyleGAN,使其能够根据给定的等级生成相应的图像。2) 潜在空间操控:利用SeFa算法分析训练好的StyleGAN的潜在空间,识别出与特定视觉特征相关的语义向量。然后,通过调整这些语义向量的值,可以控制生成图像中相应特征的强度和位置。此外,还提出了一种基于SeFa的数据增强策略,用于提升分类器的性能。

关键创新:本文的关键创新在于:1) 提出了一种完全基于条件StyleGAN的DR图像生成框架,无需额外的特征掩码或辅助网络,简化了生成流程。2) 利用SeFa算法实现了对生成图像的细粒度控制,可以独立地调整DR的严重程度和各种视觉特征。3) 提出了一种新颖的基于SeFa的数据增强策略,可以帮助分类器专注于区分性区域,忽略冗余特征。

关键设计:条件StyleGAN的网络结构采用标准的StyleGAN2架构,并添加了条件输入层,用于接收DR等级标签。SeFa算法用于分析StyleGAN的W+潜在空间,识别出与特定视觉特征相关的语义向量。数据增强策略通过在SeFa识别的语义向量方向上进行扰动,生成具有不同视觉特征的图像。损失函数包括对抗损失、梯度惩罚损失和条件损失,用于保证生成图像的质量和条件一致性。

📊 实验亮点

实验结果表明,使用该方法生成的合成图像训练的ResNet50模型在DR检测任务中达到了98.09%的准确率,99.44%的特异性,99.45%的精确率和98.09%的F1分数。在DR分级任务中,准确率达到83.33%,二次kappa系数达到87.64%,显著优于其他数据增强方法。这些结果表明,该方法能够有效地生成高质量、多样化的DR图像,并提升诊断模型的性能。

🎯 应用场景

该研究成果可应用于糖尿病视网膜病变辅助诊断系统,通过生成更多样化的训练数据,提升诊断模型的准确性和鲁棒性。此外,该方法还可用于医学图像生成领域,为其他疾病的诊断和研究提供数据支持。未来,该技术有望扩展到其他医学影像模态,例如CT和MRI,为更广泛的医学应用提供帮助。

📄 摘要(原文)

Diabetic retinopathy (DR) is a consequence of diabetes mellitus characterized by vascular damage within the retinal tissue. Timely detection is paramount to mitigate the risk of vision loss. However, training robust grading models is hindered by a shortage of annotated data, particularly for severe cases. This paper proposes a framework for controllably generating high-fidelity and diverse DR fundus images, thereby improving classifier performance in DR grading and detection. We achieve comprehensive control over DR severity and visual features (optic disc, vessel structure, lesion areas) within generated images solely through a conditional StyleGAN, eliminating the need for feature masks or auxiliary networks. Specifically, leveraging the SeFa algorithm to identify meaningful semantics within the latent space, we manipulate the DR images generated conditionally on grades, further enhancing the dataset diversity. Additionally, we propose a novel, effective SeFa-based data augmentation strategy, helping the classifier focus on discriminative regions while ignoring redundant features. Using this approach, a ResNet50 model trained for DR detection achieves 98.09% accuracy, 99.44% specificity, 99.45% precision, and an F1-score of 98.09%. Moreover, incorporating synthetic images generated by conditional StyleGAN into ResNet50 training for DR grading yields 83.33% accuracy, a quadratic kappa score of 87.64%, 95.67% specificity, and 72.24% precision. Extensive experiments conducted on the APTOS 2019 dataset demonstrate the exceptional realism of the generated images and the superior performance of our classifier compared to recent studies.