OCTCube-M: A 3D multimodal optical coherence tomography foundation model for retinal and systemic diseases with cross-cohort and cross-device validation

作者: Zixuan Liu, Hanwen Xu, Addie Woicik, Linda G. Shapiro, Marian Blazes, Yue Wu, Verena Steffen, Catherine Cukras, Cecilia S. Lee, Miao Zhang, Aaron Y. Lee, Sheng Wang

分类: eess.IV, cs.AI, cs.CV

发布日期: 2024-08-20 (更新: 2024-12-17)

💡 一句话要点

OCTCube-M：用于视网膜和全身疾病的3D多模态OCT基础模型

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: OCT 多模态学习 视网膜疾病 深度学习 对比学习

📋 核心要点

现有视网膜疾病诊断方法依赖单一模态，缺乏跨模态信息融合，限制了诊断的准确性和全面性。
提出OCTCube-M，利用多模态对比学习框架COEP，将OCT与其他视网膜成像模态有效整合，构建统一的基础模型。
实验表明，OCTCube-M在视网膜疾病预测、跨器官疾病预测和GA增长率预测方面均取得显著提升。

📝 摘要（中文）

本文提出了OCTCube-M，一个基于3D OCT的多模态基础模型，用于联合分析OCT和en face图像。OCTCube-M首先开发了OCTCube，一个在包含162万张2D OCT图像的26685个3D OCT体数据上预训练的3D基础模型。然后，它利用一种新颖的多模态对比学习框架COEP，将其他视网膜成像模式（如眼底自发荧光和红外视网膜成像）集成到OCTCube中，有效地将其扩展为多模态基础模型。OCTCube在预测8种视网膜疾病方面表现最佳，展示了在跨队列、跨设备和跨模态预测方面的强大泛化能力。OCTCube还可以预测跨器官结节恶性程度（CT）和低心射血分数以及糖尿病和高血压等全身性疾病，揭示了其在视网膜疾病之外的广泛适用性。我们进一步使用COEP和26685个OCT和IR图像对训练了OCTCube-IR。OCTCube-IR可以准确地在OCT和IR图像之间进行检索，从而可以对3D和2D视网膜成像模式进行联合分析。最后，我们从400万张2D OCT图像和40万张en face视网膜图像中训练了一个三模态基础模型OCTCube-EF。OCTCube-EF在预测来自23个国家/地区的6个多中心全球试验的数据集上的地图状萎缩（GA）的增长率方面表现最佳。这种改进在统计上等同于运行一项规模是原始研究两倍以上的临床试验。我们基于另一项回顾性案例研究的分析表明，OCTCube-EF能够根据其对II期结果的准确治疗效果估计来避免假阳性III期结果。总而言之，OCTCube-M是一个3D多模态基础模型框架，集成了OCT和其他视网膜成像模式，揭示了显着的诊断和预后益处。

🔬 方法详解

问题定义：现有视网膜疾病诊断方法通常依赖单一成像模态，例如OCT或眼底图像，无法充分利用不同模态之间的互补信息。此外，现有模型在跨设备、跨队列和跨模态的泛化能力有限，难以适应真实临床环境的复杂性。因此，需要一种能够有效融合多模态信息，并具有良好泛化能力的基础模型，以提高视网膜疾病的诊断和预测精度。

核心思路：OCTCube-M的核心思路是利用3D OCT数据构建基础模型，并通过多模态对比学习框架COEP，将其他视网膜成像模态（如眼底自发荧光和红外视网膜成像）集成到基础模型中。这种方法能够充分利用不同模态之间的互补信息，提高模型的表达能力和泛化能力。COEP框架的设计旨在学习不同模态之间的共享表示，从而实现跨模态的知识迁移和预测。

技术框架：OCTCube-M的整体框架包括以下几个主要阶段：1) 3D OCT基础模型构建：使用大规模3D OCT数据预训练OCTCube模型。2) 多模态融合：利用COEP框架，将其他视网膜成像模态（如眼底自发荧光和红外视网膜成像）集成到OCTCube模型中，构建多模态基础模型（如OCTCube-IR和OCTCube-EF）。3) 模型评估：在多个数据集上评估模型的性能，包括视网膜疾病预测、跨器官疾病预测和GA增长率预测。

关键创新：OCTCube-M的关键创新点在于：1) 提出了COEP多模态对比学习框架，能够有效融合不同视网膜成像模态的信息。2) 构建了基于3D OCT的基础模型OCTCube，能够充分利用3D OCT数据的空间信息。3) 验证了模型在跨队列、跨设备和跨模态预测方面的强大泛化能力。

关键设计：COEP框架的关键设计包括：1) 使用对比学习损失函数，鼓励模型学习不同模态之间的共享表示。2) 设计了特定的网络结构，以适应不同模态的数据特点。3) 采用了数据增强技术，提高模型的鲁棒性。具体的参数设置和网络结构细节在论文中进行了详细描述（未知）。

📊 实验亮点

OCTCube在8种视网膜疾病预测中取得最佳性能，证明了其强大的泛化能力。OCTCube-EF在预测GA增长率方面表现最佳，其性能提升相当于将临床试验规模扩大一倍以上。此外，OCTCube-EF还能避免假阳性III期结果，提高了临床试验的效率。

🎯 应用场景

OCTCube-M具有广泛的应用前景，可用于视网膜疾病的早期诊断、病情监测和治疗效果评估。此外，该模型还可以应用于其他眼科疾病的诊断和预测，甚至可以扩展到其他医学影像领域，如心血管疾病和肿瘤的诊断。该研究有望推动眼科人工智能的发展，为临床医生提供更准确、更全面的诊断信息。

📄 摘要（原文）

We present OCTCube-M, a 3D OCT-based multi-modal foundation model for jointly analyzing OCT and en face images. OCTCube-M first developed OCTCube, a 3D foundation model pre-trained on 26,685 3D OCT volumes encompassing 1.62 million 2D OCT images. It then exploits a novel multi-modal contrastive learning framework COEP to integrate other retinal imaging modalities, such as fundus autofluorescence and infrared retinal imaging, into OCTCube, efficiently extending it into multi-modal foundation models. OCTCube achieves best performance on predicting 8 retinal diseases, demonstrating strong generalizability on cross-cohort, cross-device and cross-modality prediction. OCTCube can also predict cross-organ nodule malignancy (CT) and low cardiac ejection fraction as well as systemic diseases, such as diabetes and hypertension, revealing its wide applicability beyond retinal diseases. We further develop OCTCube-IR using COEP with 26,685 OCT and IR image pairs. OCTCube-IR can accurately retrieve between OCT and IR images, allowing joint analysis between 3D and 2D retinal imaging modalities. Finally, we trained a tri-modal foundation model OCTCube-EF from 4 million 2D OCT images and 400K en face retinal images. OCTCube-EF attains the best performance on predicting the growth rate of geographic atrophy (GA) across datasets collected from 6 multi-center global trials conducted in 23 countries. This improvement is statistically equivalent to running a clinical trial with more than double the size of the original study. Our analysis based on another retrospective case study reveals OCTCube-EF's ability to avoid false positive Phase-III results according to its accurate treatment effect estimation on the Phase-II results. In sum, OCTCube-M is a 3D multi-modal foundation model framework that integrates OCT and other retinal imaging modalities revealing substantial diagnostic and prognostic benefits.

OCTCube-M: A 3D multimodal optical coherence tomography foundation model for retinal and systemic diseases with cross-cohort and cross-device validation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理