OphMAE: Bridging Volumetric and Planar Imaging with a Foundation Model for Adaptive Ophthalmological Diagnosis

📄 arXiv: 2605.02714v1 📥 PDF

作者: Tienyu Chang, Zhen Chen, Renjie Liang, Jinyu Ding, Jie Xu, Sunu Mathew, Amir Reza Hajrasouliha, Andrew J. Saykin, Ruogu Fang, Yu Huang, Jiang Bian, Qingyu Chen

分类: cs.CV, cs.AI

发布日期: 2026-05-04

备注: 29 pages, 10 figures, 1 table


💡 一句话要点

OphMAE:利用多模态眼科影像基础模型实现自适应诊断

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 眼科影像 多模态融合 基础模型 自适应推理 掩码自编码器

📋 核心要点

  1. 现有眼科AI主要局限于单模态推断,与临床实践中依赖多模态影像综合诊断不符。
  2. OphMAE通过跨模态融合架构和自适应推理机制,融合3D OCT的体积深度和2D en face OCT的平面上下文。
  3. OphMAE在多种诊断任务中超越现有模型,即使在数据有限或仅使用2D输入时,仍保持高性能。

📝 摘要(中文)

本文提出了一种眼科多模态掩码自编码器(OphMAE),旨在弥合3D光学相干断层扫描(OCT)的体积深度与2D en face OCT的平面上下文之间的差距。OphMAE通过新颖的跨模态融合架构和独特的自适应推理机制,在大规模数据集(包含来自32765名患者的183875张配对OCT图像)上进行预训练。在包含来自8191名患者的48340张配对OCT图像的17项不同诊断任务的严格基准测试中,该模型表现出最先进的性能,在年龄相关性黄斑变性(AMD)和糖尿病性黄斑水肿(DME)的曲线下面积(AUC)分别达到96.9%和97.2%,始终优于现有的单模态和多模态基础模型。OphMAE具有强大的工程适应性:即使仅限于单模态2D输入,也能保持较高的诊断准确率(AMD的AUC为93.7%),并且通过仅使用500个标记样本即可保持95.7%的AUC,展现出卓越的数据效率。这项工作为眼科AI建立了一个可扩展且适应性强的框架,确保在不同任务中具有强大的性能。

🔬 方法详解

问题定义:现有眼科AI模型主要依赖单一模态的影像数据进行诊断,这与临床实践中医生需要综合分析多种影像模态(如3D OCT和2D en face OCT)以获得更全面和准确的诊断结果不符。此外,在资源有限的环境中,获取高质量的3D影像数据可能存在困难,限制了高性能AI模型的部署。因此,如何有效地融合不同模态的眼科影像信息,并在数据稀缺或仅有部分模态数据的情况下保持诊断性能,是亟待解决的问题。

核心思路:OphMAE的核心思路是构建一个能够同时处理和融合3D OCT和2D en face OCT影像信息的多模态基础模型。通过掩码自编码器(MAE)的预训练方式,模型可以学习到通用的眼科影像特征表示。此外,模型采用跨模态融合架构,使得不同模态的信息能够相互补充和增强。自适应推理机制则允许模型在仅有部分模态数据的情况下,也能进行有效的诊断。

技术框架:OphMAE的整体架构包括以下几个主要模块:1) 3D OCT和2D en face OCT的编码器,用于提取各自的特征表示;2) 跨模态融合模块,用于将不同模态的特征进行融合;3) 解码器,用于重建被掩码的影像区域;4) 自适应推理模块,用于根据可用的模态数据调整推理策略。模型首先在大规模的未标记眼科影像数据集上进行预训练,然后可以在各种下游诊断任务上进行微调。

关键创新:OphMAE最重要的技术创新点在于其跨模态融合架构和自适应推理机制。跨模态融合架构能够有效地整合3D OCT和2D en face OCT的信息,从而提高诊断的准确性。自适应推理机制则使得模型能够在不同数据可用性的情况下,灵活地调整推理策略,保证了模型的鲁棒性和泛化能力。与现有方法相比,OphMAE能够更好地利用多模态信息,并在数据稀缺的情况下保持高性能。

关键设计:OphMAE的关键设计包括:1) 使用Transformer作为编码器和解码器的基本构建块,以捕捉影像中的长程依赖关系;2) 设计特定的损失函数,鼓励模型学习到跨模态的共享特征表示;3) 采用掩码比例较高的MAE预训练策略,迫使模型学习到更鲁棒的特征表示;4) 自适应推理模块根据输入模态的可用性,动态地调整不同模态特征的权重。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OphMAE在17项眼科诊断任务中表现出最先进的性能,例如在AMD和DME诊断中,AUC分别达到96.9%和97.2%,显著优于现有模型。即使仅使用2D影像数据,OphMAE仍能保持较高的诊断准确率(AMD的AUC为93.7%)。此外,OphMAE展现出卓越的数据效率,仅需500个标记样本即可达到95.7%的AUC,表明其具有很强的泛化能力。

🎯 应用场景

OphMAE具有广泛的应用前景,可用于眼科疾病的辅助诊断、疾病风险预测和个性化治疗方案制定。该模型能够整合多种影像模态的信息,提高诊断的准确性和效率。尤其是在资源有限的地区,OphMAE仅需2D影像即可实现较高精度的诊断,具有重要的实际价值。未来,OphMAE有望成为眼科临床实践中不可或缺的工具,推动眼科AI的发展。

📄 摘要(原文)

The advent of foundation models has heralded a new era in medical artificial intelligence (AI), enabling the extraction of generalizable representations from large-scale unlabeled datasets. However, current ophthalmic AI paradigms are predominantly constrained to single-modality inference, thereby creating a dissonance with clinical practice where diagnosis relies on the synthesis of complementary imaging modalities. Furthermore, the deployment of high-performance AI in resource-limited settings is frequently impeded by the unavailability of advanced three-dimensional imaging hardware. Here, we present the Ophthalmic multimodal Masked Autoencoder (OphMAE), a multi-imaging foundation model engineered to synergize the volumetric depth of 3D Optical Coherence Tomography (OCT) with the planar context of 2D en face OCT. By implementing a novel cross-modal fusion architecture and a unique adaptive inference mechanism, OphMAE was pre-trained on a massive dataset with of 183,875 paired OCT images derived from 32,765 patients. In a rigorous benchmark encompassing 17 diverse diagnostic tasks with 48,340 paired OCT images from 8,191 patients, the model demonstrated state-of-the-art performance, achieving an Area Under the Curve (AUC) of 96.9% for Age-related Macular Degeneration (AMD) and 97.2% for Diabetic Macular Edema (DME), consistently surpassing existing single-modal and multimodal foundation models. Crucially, OphMAE exhibits robust engineering adaptability: it maintains high diagnostic accuracy, such as 93.7\% AUC for AMD, even when restricted to single-modality 2D inputs, and demonstrates exceptional data efficiency by retaining 95.7% AUC with as few as 500 labeled samples. This work establishes a scalable and adaptable framework for ophthalmic AI, ensuring robust performance across different tasks.