VOLMO: Versatile and Open Large Models for Ophthalmology

📄 arXiv: 2603.23953v1 📥 PDF

作者: Zhenyue Qin, Younjoon Chung, Elijah Lee, Wanyue Feng, Xuguang Ai, Serina Applebaum, Minjie Zou, Yang Liu, Pan Xiao, Mac Singer, Amisha Dave, Aidan Gilson, Tiarnan D. L. Keenan, Emily Y. Chew, Zhiyong Lu, Yih-Chung Tham, Ron Adelman, Luciano V. Del Priore, Qingyu Chen

分类: cs.CV, cs.ET

发布日期: 2026-03-25


💡 一句话要点

VOLMO:用于眼科的多功能开放大型模型框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 眼科 多模态大模型 疾病筛查 临床推理 知识预训练

📋 核心要点

  1. 现有通用和医学多模态大模型在眼科领域表现不佳,且缺乏开放的眼科专用模型,限制了其应用。
  2. VOLMO框架通过眼科知识预训练、领域任务微调和多步骤临床推理,构建眼科专用多模态大模型。
  3. 实验表明,VOLMO-2B在图像描述、疾病筛查和分期、临床推理等方面均优于现有基线模型。

📝 摘要(中文)

视力障碍影响全球数百万人,早期检测对于预防不可逆的视力丧失至关重要。眼科工作流程需要临床医生整合医学图像、结构化临床数据和自由文本注释,以确定疾病的严重程度和治疗方案,这既耗时又繁琐。最近的多模态大型语言模型(MLLM)显示出潜力,但现有的通用和医学MLLM在眼科方面的表现不佳,而且很少有专门针对眼科的MLLM是开放的。我们提出了VOLMO(用于眼科的多功能开放大型模型),这是一个与模型无关、数据开放的框架,用于开发眼科专用MLLM。VOLMO包括三个阶段:在来自82种期刊的26,569篇文章中的86,965个图像-文本对上进行眼科知识预训练;在26,929个带注释的实例上进行领域任务微调,涵盖12种眼部疾病,用于疾病筛查和严重程度分类;以及在913个患者病例报告上进行多步骤临床推理,用于评估、计划和后续护理。使用此框架,我们训练了一个紧凑的20亿参数MLLM,并将其与强大的基线模型进行了比较,包括InternVL-2B、LLaVA-Med-7B、MedGemma-4B、MedGemma-27B和RETFound。我们在图像描述生成、疾病筛查和分期分类以及评估和管理生成方面评估了这些模型,并由两位医疗保健专业人员进行了额外的手动审查,并在三个独立的队列中对年龄相关性黄斑变性和糖尿病视网膜病变进行了外部验证。在各种设置中,VOLMO-2B始终优于基线模型,实现了更强的图像描述性能,在12种眼部疾病中的平均F1值为87.4%,并在外部验证中获得了更高的分数。

🔬 方法详解

问题定义:现有通用和医学多模态大模型在眼科领域的应用效果不佳,无法有效整合医学图像、结构化临床数据和自由文本注释,导致疾病筛查、严重程度分类和临床推理等任务的性能受限。同时,缺乏开放的眼科专用多模态大模型,阻碍了该领域的研究进展。

核心思路:VOLMO的核心思路是构建一个专门针对眼科领域的多模态大模型框架,通过大规模的眼科知识预训练、领域任务微调和多步骤临床推理,使模型能够更好地理解和处理眼科相关的多模态数据,从而提高在眼科疾病诊断和治疗方面的性能。

技术框架:VOLMO框架包含三个主要阶段:1) 眼科知识预训练:利用大规模的眼科图像-文本对数据,对模型进行预训练,使其具备基本的眼科知识。2) 领域任务微调:在带标注的眼科数据集上,针对疾病筛查和严重程度分类等具体任务对模型进行微调。3) 多步骤临床推理:利用患者病例报告,训练模型进行评估、计划和后续护理等临床推理任务。

关键创新:VOLMO的关键创新在于其模型无关和数据开放的设计理念,以及针对眼科领域的多模态数据特点,构建了包含知识预训练、任务微调和临床推理的完整训练流程。此外,该框架还开源了相关数据和模型,促进了眼科人工智能领域的研究和发展。

关键设计:VOLMO使用了一个紧凑的20亿参数MLLM作为基础模型。在知识预训练阶段,使用了来自82种期刊的26,569篇文章中的86,965个图像-文本对。在领域任务微调阶段,使用了涵盖12种眼部疾病的26,929个带注释的实例。在多步骤临床推理阶段,使用了913个患者病例报告。具体的损失函数和网络结构等技术细节未在摘要中详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VOLMO-2B在各项任务中均优于基线模型,在图像描述生成方面表现更强,在12种眼部疾病的筛查和分期分类中,平均F1值达到87.4%,并在年龄相关性黄斑变性和糖尿病视网膜病变的外部验证中获得更高分数。这些结果表明VOLMO在眼科领域的有效性。

🎯 应用场景

VOLMO框架及其训练的眼科专用多模态大模型,可应用于眼科疾病的早期筛查、诊断辅助、治疗方案制定和患者管理等多个方面。该研究有助于提高眼科医疗服务的效率和质量,并为眼科人工智能领域的研究提供新的思路和工具。

📄 摘要(原文)

Vision impairment affects millions globally, and early detection is critical to preventing irreversible vision loss. Ophthalmology workflows require clinicians to integrate medical images, structured clinical data, and free-text notes to determine disease severity and management, which is time-consuming and burdensome. Recent multimodal large language models (MLLMs) show promise, but existing general and medical MLLMs perform poorly in ophthalmology, and few ophthalmology-specific MLLMs are openly available. We present VOLMO (Versatile and Open Large Models for Ophthalmology), a model-agnostic, data-open framework for developing ophthalmology-specific MLLMs. VOLMO includes three stages: ophthalmology knowledge pretraining on 86,965 image-text pairs from 26,569 articles across 82 journals; domain task fine-tuning on 26,929 annotated instances spanning 12 eye conditions for disease screening and severity classification; and multi-step clinical reasoning on 913 patient case reports for assessment, planning, and follow-up care. Using this framework, we trained a compact 2B-parameter MLLM and compared it with strong baselines, including InternVL-2B, LLaVA-Med-7B, MedGemma-4B, MedGemma-27B, and RETFound. We evaluated these models on image description generation, disease screening and staging classification, and assessment-and-management generation, with additional manual review by two healthcare professionals and external validation on three independent cohorts for age-related macular degeneration and diabetic retinopathy. Across settings, VOLMO-2B consistently outperformed baselines, achieving stronger image description performance, an average F1 of 87.4% across 12 eye conditions, and higher scores in external validation.