Fundus to Fluorescein Angiography Video Generation as a Retinal Generative Foundation Model
作者: Weiyi Zhang, Jiancheng Yang, Ruoyu Chen, Siyu Huang, Pusheng Xu, Xiaolan Chen, Shanfu Lu, Hongyu Cao, Mingguang He, Danli Shi
分类: cs.CV
发布日期: 2024-10-17 (更新: 2024-10-18)
💡 一句话要点
提出Fundus2Video,用于从眼底彩照生成动态FFA视频,并作为视网膜生成式基础模型。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 眼底彩照 荧光素眼底血管造影 视频生成 生成对抗网络 自回归模型 视网膜疾病 迁移学习
📋 核心要点
- 现有CF图像到FFA图像的转换方法局限于静态图像生成,无法捕捉动态病灶变化,限制了临床应用。
- Fundus2Video采用自回归GAN模型,从单张CF图像生成动态FFA视频,模拟血管造影的时序过程。
- 实验表明,Fundus2Video在视频生成质量和下游任务迁移方面均表现出色,验证了其作为视网膜生成式基础模型的潜力。
📝 摘要(中文)
本文提出Fundus2Video,一种自回归生成对抗网络(GAN)模型,旨在从单张眼底彩照(CF)生成动态荧光素眼底血管造影(FFA)视频。相比于静态图像生成方法,Fundus2Video能够捕捉病灶的动态变化。实验表明,Fundus2Video在视频生成方面表现出色,FVD达到1497.12,PSNR达到11.77,并获得了临床专家的验证。此外,该模型的生成器在十个外部公共数据集上展现了卓越的下游迁移能力,包括血管分割、视网膜疾病诊断、全身性疾病预测和多模态检索,体现了其强大的零样本和小样本学习能力。这些结果表明,Fundus2Video是一种强大的、非侵入性的FFA检查替代方案,也是一个通用的视网膜生成式基础模型,能够捕捉静态和时间视网膜特征,从而表示复杂的模态间关系。
🔬 方法详解
问题定义:该论文旨在解决从单张眼底彩照(CF)生成动态荧光素眼底血管造影(FFA)视频的问题。现有的CF到FFA的转换方法主要集中于静态图像生成,无法捕捉FFA视频中重要的动态病灶变化,限制了其在临床诊断和监测中的应用。
核心思路:论文的核心思路是利用自回归生成对抗网络(GAN)来模拟FFA视频的时序动态过程。通过将单张CF图像作为输入,模型能够逐步生成FFA视频的后续帧,从而捕捉血管造影过程中荧光素的流动和病灶的变化。这种方法能够提供更丰富的信息,有助于医生进行更准确的诊断。
技术框架:Fundus2Video的整体架构是一个自回归GAN。它包含一个生成器和一个判别器。生成器负责从单张CF图像生成FFA视频,判别器则负责区分生成的视频和真实的FFA视频。生成器采用自回归结构,即每一帧的生成都依赖于前一帧的信息,从而保证视频的时序一致性。
关键创新:该论文的关键创新在于将自回归GAN应用于眼底图像视频生成,从而能够模拟FFA视频的动态过程。与传统的静态图像生成方法相比,Fundus2Video能够捕捉病灶的动态变化,提供更丰富的信息。此外,该模型还展现了强大的下游迁移能力,可以应用于多种视网膜疾病诊断和预测任务。
关键设计:Fundus2Video的关键设计包括:1) 自回归生成器结构,保证视频的时序一致性;2) 对抗训练,提高生成视频的真实感;3) 针对视频生成的损失函数,如FVD (Fréchet Video Distance),用于评估生成视频的质量;4) 大量眼底彩照和FFA视频数据用于训练模型,提高模型的泛化能力。
📊 实验亮点
Fundus2Video在FFA视频生成方面取得了显著成果,FVD达到1497.12,PSNR达到11.77,表明其生成视频的质量较高。更重要的是,该模型在十个外部公共数据集上展现了强大的下游迁移能力,包括血管分割、视网膜疾病诊断、全身性疾病预测和多模态检索,证明了其作为视网膜生成式基础模型的潜力。
🎯 应用场景
Fundus2Video具有广泛的应用前景。它可以作为一种非侵入性的FFA检查替代方案,减少患者的痛苦和风险。此外,该模型还可以用于视网膜疾病的早期诊断和监测,以及全身性疾病的预测。作为一个视网膜生成式基础模型,Fundus2Video可以促进多模态视网膜图像分析和理解,为人工智能在眼科领域的应用提供新的可能性。
📄 摘要(原文)
Fundus fluorescein angiography (FFA) is crucial for diagnosing and monitoring retinal vascular issues but is limited by its invasive nature and restricted accessibility compared to color fundus (CF) imaging. Existing methods that convert CF images to FFA are confined to static image generation, missing the dynamic lesional changes. We introduce Fundus2Video, an autoregressive generative adversarial network (GAN) model that generates dynamic FFA videos from single CF images. Fundus2Video excels in video generation, achieving an FVD of 1497.12 and a PSNR of 11.77. Clinical experts have validated the fidelity of the generated videos. Additionally, the model's generator demonstrates remarkable downstream transferability across ten external public datasets, including blood vessel segmentation, retinal disease diagnosis, systemic disease prediction, and multimodal retrieval, showcasing impressive zero-shot and few-shot capabilities. These findings position Fundus2Video as a powerful, non-invasive alternative to FFA exams and a versatile retinal generative foundation model that captures both static and temporal retinal features, enabling the representation of complex inter-modality relationships.