Full end-to-end diagnostic workflow automation of 3D OCT via foundation model-driven AI for retinal diseases

作者: Jinze Zhang, Jian Zhong, Li Lin, Jiaxiong Li, Ke Ma, Naiyang Li, Meng Li, Yuan Pan, Zeyu Meng, Mengyun Zhou, Shang Huang, Shilong Yu, Zhengyu Duan, Sutong Li, Honghui Xia, Juping Liu, Dan Liang, Yantao Wei, Xiaoying Tang, Jin Yuan, Peng Xiao

分类: cs.CV, cs.AI

发布日期: 2026-02-03

💡 一句话要点

提出基于Vision Foundation Model的FOCUS框架，实现3D OCT视网膜疾病诊断全流程自动化

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视网膜疾病诊断 光学相干断层扫描 Vision Foundation Model 端到端自动化 图像质量评估

📋 核心要点

传统OCT视网膜疾病诊断流程复杂，依赖人工，且现有AI模型通常为单切片单任务，难以实现全流程自动化。
FOCUS框架利用Vision Foundation Model，通过图像质量评估、异常检测和多疾病分类，实现端到端3D OCT视网膜疾病诊断。
实验结果表明，FOCUS在质量评估、异常检测和患者级别诊断方面均取得了高F1分数，且在真实世界验证中表现稳定。

📝 摘要（中文）

光学相干断层扫描(OCT)以其高分辨率和三维成像特性彻底改变了视网膜疾病的诊断，但其在临床实践中的完全诊断自动化仍受到多阶段工作流程和传统单切片单任务AI模型的限制。我们提出了全流程OCT临床实用系统(FOCUS)，这是一个基于Vision Foundation Model的框架，能够实现3D OCT视网膜疾病诊断的端到端自动化。FOCUS依次执行使用EfficientNetV2-S的图像质量评估，然后使用微调的Vision Foundation Model进行异常检测和多疾病分类。关键的是，FOCUS利用统一的自适应聚合方法，将2D切片级别的预测智能地整合到全面的3D患者级别诊断中。在3300名患者（40672个切片）上进行训练和测试，并在四个不同层级中心和不同OCT设备上的1345名患者（18498个切片）上进行外部验证，FOCUS在质量评估（99.01%）、异常检测（97.46%）和患者级别诊断（94.39%）方面取得了很高的F1分数。跨中心的真实世界验证也显示出稳定的性能（F1：90.22%-95.24%）。在人机比较中，FOCUS在异常检测（F1：95.47% vs 90.91%）和多疾病诊断（F1：93.49% vs 91.35%）方面与专家表现相匹配，同时表现出更好的效率。FOCUS自动化了从图像到诊断的流程，代表了无人眼科的一个关键进展，并为自主筛查提供了一个经过验证的蓝图，以提高人群规模的视网膜护理可及性和效率。

🔬 方法详解

问题定义：该论文旨在解决3D OCT视网膜疾病诊断流程自动化程度低的问题。现有方法通常依赖于人工操作，耗时且易出错。此外，传统的AI模型通常是针对单个切片或单个任务设计的，无法实现端到端的全流程自动化诊断。这些痛点限制了OCT技术在人群规模视网膜护理中的应用。

核心思路：论文的核心思路是利用Vision Foundation Model强大的特征提取和泛化能力，构建一个能够处理3D OCT图像并实现全流程诊断的统一框架。通过对Vision Foundation Model进行微调，使其能够适应视网膜疾病诊断的任务。此外，论文还提出了一种自适应聚合方法，将2D切片级别的预测整合到3D患者级别的诊断中，从而提高诊断的准确性和可靠性。

技术框架：FOCUS框架包含三个主要模块：图像质量评估、异常检测和多疾病分类。首先，使用EfficientNetV2-S对OCT图像进行质量评估，过滤掉质量较差的图像。然后，使用微调的Vision Foundation Model进行异常检测，判断图像中是否存在异常。最后，对检测到的异常进行多疾病分类，确定患者所患的具体疾病类型。整个流程是端到端的，无需人工干预。

关键创新：该论文最重要的技术创新点在于将Vision Foundation Model应用于3D OCT视网膜疾病诊断，并提出了一种自适应聚合方法。与传统的单切片单任务AI模型相比，FOCUS能够处理3D OCT图像，并实现全流程自动化诊断。此外，自适应聚合方法能够有效地整合2D切片级别的预测，提高诊断的准确性和可靠性。

关键设计：在图像质量评估模块中，使用了EfficientNetV2-S模型。在异常检测和多疾病分类模块中，使用了微调的Vision Foundation Model。具体使用的Vision Foundation Model类型未知，微调策略也未知。自适应聚合方法的具体实现细节未知，包括如何根据不同的切片预测进行加权或融合。

📊 实验亮点

FOCUS框架在内部测试集上取得了高质量评估99.01%，异常检测97.46%，患者级别诊断94.39%的F1分数。在跨中心外部验证中，F1分数稳定在90.22%-95.24%。人机对比实验表明，FOCUS在异常检测和多疾病诊断方面与专家水平相当，甚至在效率上更胜一筹。

🎯 应用场景

该研究成果可应用于眼科疾病的自动筛查、诊断和治疗方案制定。通过自动化OCT图像分析，可以提高诊断效率，降低人工成本，并为大规模人群的视网膜疾病筛查提供技术支持。未来，该技术有望应用于远程医疗和移动医疗，提高医疗资源的可及性。

📄 摘要（原文）

Optical coherence tomography (OCT) has revolutionized retinal disease diagnosis with its high-resolution and three-dimensional imaging nature, yet its full diagnostic automation in clinical practices remains constrained by multi-stage workflows and conventional single-slice single-task AI models. We present Full-process OCT-based Clinical Utility System (FOCUS), a foundation model-driven framework enabling end-to-end automation of 3D OCT retinal disease diagnosis. FOCUS sequentially performs image quality assessment with EfficientNetV2-S, followed by abnormality detection and multi-disease classification using a fine-tuned Vision Foundation Model. Crucially, FOCUS leverages a unified adaptive aggregation method to intelligently integrate 2D slices-level predictions into comprehensive 3D patient-level diagnosis. Trained and tested on 3,300 patients (40,672 slices), and externally validated on 1,345 patients (18,498 slices) across four different-tier centers and diverse OCT devices, FOCUS achieved high F1 scores for quality assessment (99.01%), abnormally detection (97.46%), and patient-level diagnosis (94.39%). Real-world validation across centers also showed stable performance (F1: 90.22%-95.24%). In human-machine comparisons, FOCUS matched expert performance in abnormality detection (F1: 95.47% vs 90.91%) and multi-disease diagnosis (F1: 93.49% vs 91.35%), while demonstrating better efficiency. FOCUS automates the image-to-diagnosis pipeline, representing a critical advance towards unmanned ophthalmology with a validated blueprint for autonomous screening to enhance population scale retinal care accessibility and efficiency.

Full end-to-end diagnostic workflow automation of 3D OCT via foundation model-driven AI for retinal diseases

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理