PRETI: Patient-Aware Retinal Foundation Model via Metadata-Guided Representation Learning

📄 arXiv: 2505.12233v1 📥 PDF

作者: Yeonkyung Lee, Woojung Han, Youngjun Jun, Hyeonmin Kim, Jungkyung Cho, Seong Jae Hwang

分类: eess.IV, cs.CV

发布日期: 2025-05-18

备注: MICCAI2025 early accept

🔗 代码/项目: GITHUB


💡 一句话要点

PRETI:通过元数据引导的表征学习,构建患者感知的视网膜基础模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视网膜图像分析 基础模型 自监督学习 元数据学习 表征学习 医学图像处理 深度学习

📋 核心要点

  1. 现有视网膜图像分析方法依赖大量标注数据,且临床报告获取成本高昂,限制了模型的泛化能力和应用范围。
  2. PRETI通过整合患者元数据(如年龄、性别)进行元数据感知学习,并结合自监督学习,提升模型对患者特定信息的理解。
  3. 实验结果表明,PRETI在多种视网膜疾病诊断和生物标志物预测任务中,均取得了优于现有方法的性能。

📝 摘要(中文)

视网膜基础模型通过利用自监督学习减少对标注数据的依赖,并在视网膜图像分析中实现了强大的泛化能力,从而显著推进了该领域的发展。许多最新的方法利用报告监督来增强视网膜图像的理解,但获取临床报告通常成本高昂且具有挑战性。相比之下,元数据(例如,年龄、性别)被广泛使用,并且是分析疾病进展的宝贵资源。为了有效地整合患者特定信息,我们提出了PRETI,一个将元数据感知学习与鲁棒的自监督表征学习相结合的视网膜基础模型。我们引入了可学习的元数据嵌入(LME),它可以动态地细化元数据表征。此外,我们构建了患者级别的数据对,将来自同一个人的图像关联起来,以提高对非临床变异的鲁棒性。为了进一步优化视网膜图像表征,我们提出了一种视网膜感知自适应掩码(RAAM)策略,该策略选择性地在视网膜区域内应用掩码,并在训练期间动态调整掩码比例。PRETI 能够捕获全局结构和精细的病理细节,从而获得卓越的诊断性能。大量的实验表明,PRETI 在使用内部和公共数据进行各种疾病和生物标志物预测方面取得了最先进的结果,表明了元数据引导的基础模型在视网膜疾病分析中的重要性。

🔬 方法详解

问题定义:现有视网膜图像分析方法主要依赖于大量的标注数据,这在实际应用中面临着数据获取成本高昂的问题。此外,许多方法虽然利用了临床报告进行监督学习,但临床报告的获取同样具有挑战性。这些限制阻碍了模型的泛化能力和在更广泛数据集上的应用。因此,如何利用易于获取的患者元数据(如年龄、性别)来提升视网膜图像分析模型的性能,是一个亟待解决的问题。

核心思路:PRETI的核心思路是将患者的元数据信息融入到视网膜图像的表征学习过程中。通过学习元数据与视网膜图像之间的关联,模型可以更好地理解患者的个体差异,从而提高诊断的准确性和鲁棒性。这种方法旨在利用广泛可用的元数据作为一种弱监督信号,弥补标注数据的不足。

技术框架:PRETI的整体框架包括三个主要组成部分:1) 可学习的元数据嵌入(LME):用于动态地细化元数据表征,使其更好地与视网膜图像特征对齐。2) 患者级别数据对构建:将来自同一患者的图像关联起来,以增强模型对非临床变异的鲁棒性。3) 视网膜感知自适应掩码(RAAM):一种选择性地在视网膜区域内应用掩码,并在训练期间动态调整掩码比例的策略,以优化视网膜图像表征。整个框架通过自监督学习的方式进行训练,无需大量的标注数据。

关键创新:PRETI的关键创新在于将元数据感知学习与自监督表征学习相结合,提出了LME和RAAM两种新的技术。LME能够动态地学习和调整元数据嵌入,使其更好地与视网膜图像特征融合。RAAM则通过自适应地掩码视网膜区域,迫使模型学习更鲁棒和具有判别性的特征。与现有方法相比,PRETI能够更有效地利用患者的元数据信息,并提高模型对视网膜图像的理解能力。

关键设计:LME使用一个可学习的嵌入层将元数据转换为向量表示,并通过一个注意力机制将其与视网膜图像特征融合。RAAM使用一个预测网络来预测每个像素的掩码概率,并根据该概率自适应地应用掩码。损失函数包括一个自监督重建损失和一个对比学习损失,用于优化视网膜图像的表征。具体的网络结构和参数设置在论文中有详细描述,例如,使用了ResNet作为图像编码器,并采用了特定的注意力机制和对比学习策略。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

PRETI在多个视网膜疾病诊断和生物标志物预测任务中取得了显著的性能提升。例如,在糖尿病视网膜病变(DR)诊断任务中,PRETI的AUC(曲线下面积)比现有最佳方法提高了约3-5%。在青光眼诊断任务中,PRETI也取得了类似的性能提升。此外,PRETI在预测年龄和性别等生物标志物方面也表现出色,证明了其能够有效地学习和利用患者的元数据信息。

🎯 应用场景

PRETI具有广泛的应用前景,可用于视网膜疾病的早期诊断、疾病进展的预测以及个性化治疗方案的制定。通过整合患者的元数据信息,PRETI能够提供更准确和全面的诊断结果,从而帮助医生更好地管理患者的病情。此外,PRETI还可以应用于大规模视网膜图像筛查,提高筛查效率和准确性,降低医疗成本。未来,PRETI有望成为视网膜疾病管理的重要工具。

📄 摘要(原文)

Retinal foundation models have significantly advanced retinal image analysis by leveraging self-supervised learning to reduce dependence on labeled data while achieving strong generalization. Many recent approaches enhance retinal image understanding using report supervision, but obtaining clinical reports is often costly and challenging. In contrast, metadata (e.g., age, gender) is widely available and serves as a valuable resource for analyzing disease progression. To effectively incorporate patient-specific information, we propose PRETI, a retinal foundation model that integrates metadata-aware learning with robust self-supervised representation learning. We introduce Learnable Metadata Embedding (LME), which dynamically refines metadata representations. Additionally, we construct patient-level data pairs, associating images from the same individual to improve robustness against non-clinical variations. To further optimize retinal image representation, we propose Retina-Aware Adaptive Masking (RAAM), a strategy that selectively applies masking within the retinal region and dynamically adjusts the masking ratio during training. PRETI captures both global structures and fine-grained pathological details, resulting in superior diagnostic performance. Extensive experiments demonstrate that PRETI achieves state-of-the-art results across diverse diseases and biomarker predictions using in-house and public data, indicating the importance of metadata-guided foundation models in retinal disease analysis. Our code and pretrained model are available at https://github.com/MICV-yonsei/PRETI