OphMAE: Bridging Volumetric and Planar Imaging with a Foundation Model for Adaptive Ophthalmological Diagnosis

作者: Tienyu Chang, Zhen Chen, Renjie Liang, Jinyu Ding, Jie Xu, Sunu Mathew, Amir Reza Hajrasouliha, Andrew J. Saykin, Ruogu Fang, Yu Huang, Jiang Bian, Qingyu Chen

分类: cs.CV, cs.AI

发布日期: 2026-05-04

备注: 29 pages, 10 figures, 1 table

💡 一句话要点

OphMAE：利用多模态眼科影像基础模型实现自适应诊断

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 眼科影像 多模态融合 基础模型 自适应推理 掩码自编码器

📋 核心要点

现有眼科AI主要局限于单模态推断，与临床实践中依赖多模态影像综合诊断不符。
OphMAE通过跨模态融合架构和自适应推理机制，融合3D OCT的体积深度和2D en face OCT的平面上下文。
OphMAE在多种诊断任务中超越现有模型，即使在数据有限或仅使用2D输入时，仍保持高性能。

📝 摘要（中文）

本文提出了一种眼科多模态掩码自编码器（OphMAE），旨在弥合3D光学相干断层扫描（OCT）的体积深度与2D en face OCT的平面上下文之间的差距。OphMAE通过新颖的跨模态融合架构和独特的自适应推理机制，在大规模数据集（包含来自32765名患者的183875张配对OCT图像）上进行预训练。在包含来自8191名患者的48340张配对OCT图像的17项不同诊断任务的严格基准测试中，该模型表现出最先进的性能，在年龄相关性黄斑变性（AMD）和糖尿病性黄斑水肿（DME）的曲线下面积（AUC）分别达到96.9%和97.2%，始终优于现有的单模态和多模态基础模型。OphMAE具有强大的工程适应性：即使仅限于单模态2D输入，也能保持较高的诊断准确率（AMD的AUC为93.7%），并且通过仅使用500个标记样本即可保持95.7%的AUC，展现出卓越的数据效率。这项工作为眼科AI建立了一个可扩展且适应性强的框架，确保在不同任务中具有强大的性能。

🔬 方法详解

问题定义：现有眼科AI模型主要依赖单一模态的影像数据进行诊断，这与临床实践中医生需要综合分析多种影像模态（如3D OCT和2D en face OCT）以获得更全面和准确的诊断结果不符。此外，在资源有限的环境中，获取高质量的3D影像数据可能存在困难，限制了高性能AI模型的部署。因此，如何有效地融合不同模态的眼科影像信息，并在数据稀缺或仅有部分模态数据的情况下保持诊断性能，是亟待解决的问题。

核心思路：OphMAE的核心思路是构建一个能够同时处理和融合3D OCT和2D en face OCT影像信息的多模态基础模型。通过掩码自编码器（MAE）的预训练方式，模型可以学习到通用的眼科影像特征表示。此外，模型采用跨模态融合架构，使得不同模态的信息能够相互补充和增强。自适应推理机制则允许模型在仅有部分模态数据的情况下，也能进行有效的诊断。

技术框架：OphMAE的整体架构包括以下几个主要模块：1) 3D OCT和2D en face OCT的编码器，用于提取各自的特征表示；2) 跨模态融合模块，用于将不同模态的特征进行融合；3) 解码器，用于重建被掩码的影像区域；4) 自适应推理模块，用于根据可用的模态数据调整推理策略。模型首先在大规模的未标记眼科影像数据集上进行预训练，然后可以在各种下游诊断任务上进行微调。

关键创新：OphMAE最重要的技术创新点在于其跨模态融合架构和自适应推理机制。跨模态融合架构能够有效地整合3D OCT和2D en face OCT的信息，从而提高诊断的准确性。自适应推理机制则使得模型能够在不同数据可用性的情况下，灵活地调整推理策略，保证了模型的鲁棒性和泛化能力。与现有方法相比，OphMAE能够更好地利用多模态信息，并在数据稀缺的情况下保持高性能。

关键设计：OphMAE的关键设计包括：1) 使用Transformer作为编码器和解码器的基本构建块，以捕捉影像中的长程依赖关系；2) 设计特定的损失函数，鼓励模型学习到跨模态的共享特征表示；3) 采用掩码比例较高的MAE预训练策略，迫使模型学习到更鲁棒的特征表示；4) 自适应推理模块根据输入模态的可用性，动态地调整不同模态特征的权重。

🖼️ 关键图片

📊 实验亮点

OphMAE在17项眼科诊断任务中表现出最先进的性能，例如在AMD和DME诊断中，AUC分别达到96.9%和97.2%，显著优于现有模型。即使仅使用2D影像数据，OphMAE仍能保持较高的诊断准确率（AMD的AUC为93.7%）。此外，OphMAE展现出卓越的数据效率，仅需500个标记样本即可达到95.7%的AUC，表明其具有很强的泛化能力。

🎯 应用场景

OphMAE具有广泛的应用前景，可用于眼科疾病的辅助诊断、疾病风险预测和个性化治疗方案制定。该模型能够整合多种影像模态的信息，提高诊断的准确性和效率。尤其是在资源有限的地区，OphMAE仅需2D影像即可实现较高精度的诊断，具有重要的实际价值。未来，OphMAE有望成为眼科临床实践中不可或缺的工具，推动眼科AI的发展。

📄 摘要（原文）

The advent of foundation models has heralded a new era in medical artificial intelligence (AI), enabling the extraction of generalizable representations from large-scale unlabeled datasets. However, current ophthalmic AI paradigms are predominantly constrained to single-modality inference, thereby creating a dissonance with clinical practice where diagnosis relies on the synthesis of complementary imaging modalities. Furthermore, the deployment of high-performance AI in resource-limited settings is frequently impeded by the unavailability of advanced three-dimensional imaging hardware. Here, we present the Ophthalmic multimodal Masked Autoencoder (OphMAE), a multi-imaging foundation model engineered to synergize the volumetric depth of 3D Optical Coherence Tomography (OCT) with the planar context of 2D en face OCT. By implementing a novel cross-modal fusion architecture and a unique adaptive inference mechanism, OphMAE was pre-trained on a massive dataset with of 183,875 paired OCT images derived from 32,765 patients. In a rigorous benchmark encompassing 17 diverse diagnostic tasks with 48,340 paired OCT images from 8,191 patients, the model demonstrated state-of-the-art performance, achieving an Area Under the Curve (AUC) of 96.9% for Age-related Macular Degeneration (AMD) and 97.2% for Diabetic Macular Edema (DME), consistently surpassing existing single-modal and multimodal foundation models. Crucially, OphMAE exhibits robust engineering adaptability: it maintains high diagnostic accuracy, such as 93.7\% AUC for AMD, even when restricted to single-modality 2D inputs, and demonstrates exceptional data efficiency by retaining 95.7% AUC with as few as 500 labeled samples. This work establishes a scalable and adaptable framework for ophthalmic AI, ensuring robust performance across different tasks.

OphMAE: Bridging Volumetric and Planar Imaging with a Foundation Model for Adaptive Ophthalmological Diagnosis

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理