UrFound: Towards Universal Retinal Foundation Models via Knowledge-Guided Masked Modeling

📄 arXiv: 2408.05618v1 📥 PDF

作者: Kai Yu, Yang Zhou, Yang Bai, Zhi Da Soh, Xinxing Xu, Rick Siow Mong Goh, Ching-Yu Cheng, Yong Liu

分类: cs.CV, cs.AI

发布日期: 2024-08-10

🔗 代码/项目: GITHUB


💡 一句话要点

UrFound:通过知识引导的掩码建模实现通用视网膜基础模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视网膜基础模型 多模态学习 知识引导 掩码建模 眼科图像分析

📋 核心要点

  1. 现有视网膜基础模型受限于单一成像模态,且未能充分利用专家标注中的领域知识。
  2. UrFound通过模态无关的图像编码器和知识引导的掩码建模,学习多模态视网膜图像的通用表征。
  3. 实验表明,UrFound在多个视网膜数据集上显著优于现有模型,展现出强大的泛化能力和数据效率。

📝 摘要(中文)

视网膜基础模型旨在从多样化的视网膜图像中学习可泛化的表征,从而促进各种眼科任务中标签高效的模型适应。然而,当前的视网膜基础模型通常仅限于单一成像模式,如彩色眼底摄影(CFP)或光学相干断层扫描(OCT),限制了其通用性。此外,这些模型可能难以充分利用专家标注,并忽略了对于领域特定表征学习至关重要的领域知识。为了克服这些限制,我们提出了UrFound,一种旨在从多模态视网膜图像和领域知识中学习通用表征的视网膜基础模型。UrFound配备了一个模态无关的图像编码器,可以接受CFP或OCT图像作为输入。为了将领域知识整合到表征学习中,我们将专家标注编码为文本监督,并提出了一种知识引导的掩码建模策略用于模型预训练。该策略包括重建视网膜图像的随机掩码块,同时预测以相应视网膜图像为条件的掩码文本标记。这种方法在统一的潜在空间中对齐多模态图像和文本专家标注,从而促进可泛化和领域特定的表征学习。实验结果表明,UrFound在适应视网膜图像分析的各种任务时,表现出强大的泛化能力和数据效率。通过在约18万张视网膜图像上进行训练,UrFound在8个公共视网膜数据集上显著优于在多达160万张未标记图像上训练的最先进的视网膜基础模型。

🔬 方法详解

问题定义:现有视网膜基础模型通常只针对单一模态(如CFP或OCT),缺乏通用性,难以处理多模态视网膜图像。此外,现有方法忽略了专家标注中蕴含的丰富领域知识,限制了模型学习领域特定表征的能力。

核心思路:UrFound的核心思路是构建一个能够同时处理多模态视网膜图像和领域知识的通用基础模型。通过知识引导的掩码建模,将图像和文本信息对齐到统一的潜在空间,从而学习到更具泛化性和领域特性的表征。

技术框架:UrFound包含一个模态无关的图像编码器和一个知识引导的掩码建模模块。图像编码器负责将CFP或OCT图像编码为图像特征。掩码建模模块通过重建随机掩码的图像块和预测掩码的文本标记,将图像特征和文本信息对齐。整体流程为:输入图像 -> 图像编码器 -> 图像特征;输入文本标注 -> 文本编码器 -> 文本特征;图像特征和文本特征输入掩码建模模块进行联合训练。

关键创新:UrFound的关键创新在于知识引导的掩码建模策略。它将专家标注编码为文本监督,并利用这些文本信息来指导图像表征的学习。这种方法有效地将领域知识融入到模型中,提升了模型的泛化能力和数据效率。与现有方法相比,UrFound能够同时处理多模态数据和领域知识,从而学习到更强大的视网膜表征。

关键设计:UrFound使用Transformer作为图像编码器和文本编码器的基础架构。掩码建模模块采用BERT风格的掩码策略,随机掩盖图像块和文本标记,并要求模型重建这些被掩盖的部分。损失函数包括图像重建损失和文本预测损失,用于优化图像和文本表征的对齐。具体的网络结构和参数设置在论文中有详细描述,例如Transformer的层数、注意力头的数量等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

UrFound在8个公共视网膜数据集上进行了评估,结果表明,在仅使用约18万张视网膜图像进行训练的情况下,UrFound显著优于在多达160万张未标记图像上训练的最先进的视网膜基础模型。这表明UrFound具有强大的泛化能力和数据效率,能够有效地利用领域知识来提升模型性能。具体的性能指标(如AUC、F1-score等)在论文中有详细报告。

🎯 应用场景

UrFound具有广泛的应用前景,可用于辅助诊断各种眼科疾病,如糖尿病视网膜病变、青光眼和黄斑变性等。通过学习通用的视网膜表征,UrFound可以快速适应新的眼科任务和数据集,降低了模型开发的成本和时间。未来,UrFound可以进一步扩展到其他医学影像领域,为构建通用医学影像基础模型提供借鉴。

📄 摘要(原文)

Retinal foundation models aim to learn generalizable representations from diverse retinal images, facilitating label-efficient model adaptation across various ophthalmic tasks. Despite their success, current retinal foundation models are generally restricted to a single imaging modality, such as Color Fundus Photography (CFP) or Optical Coherence Tomography (OCT), limiting their versatility. Moreover, these models may struggle to fully leverage expert annotations and overlook the valuable domain knowledge essential for domain-specific representation learning. To overcome these limitations, we introduce UrFound, a retinal foundation model designed to learn universal representations from both multimodal retinal images and domain knowledge. UrFound is equipped with a modality-agnostic image encoder and accepts either CFP or OCT images as inputs. To integrate domain knowledge into representation learning, we encode expert annotation in text supervision and propose a knowledge-guided masked modeling strategy for model pre-training. It involves reconstructing randomly masked patches of retinal images while predicting masked text tokens conditioned on the corresponding retinal image. This approach aligns multimodal images and textual expert annotations within a unified latent space, facilitating generalizable and domain-specific representation learning. Experimental results demonstrate that UrFound exhibits strong generalization ability and data efficiency when adapting to various tasks in retinal image analysis. By training on ~180k retinal images, UrFound significantly outperforms the state-of-the-art retinal foundation model trained on up to 1.6 million unlabelled images across 8 public retinal datasets. Our code and data are available at https://github.com/yukkai/UrFound.