A Novel Ophthalmic Benchmark for Evaluating Multimodal Large Language Models with Fundus Photographs and OCT Images

作者: Xiaoyi Liang, Mouxiao Bian, Moxin Chen, Lihao Liu, Junjun He, Jie Xu, Lin Li

分类: cs.CL

发布日期: 2025-03-10

💡 一句话要点

提出眼科多模态大语言模型评测基准，评估眼底彩照和OCT图像分析能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 大型语言模型 眼科图像分析 OCT图像 眼底彩照 疾病诊断 临床基准

📋 核心要点

现有MLLM基准在眼科应用中，尤其在OCT图像分析方面，存在样本量小、数据集单一、缺乏专家验证等问题。
本研究构建了一个高质量的眼科多模态数据集，包含眼底彩照和OCT图像，并进行严格的质量控制和专家标注。
通过标准API评估七个主流MLLM，发现模型在不同眼科疾病诊断上表现不一致，需进一步改进。

📝 摘要（中文）

近年来，大型语言模型（LLMs）在各种医疗应用中展现出巨大潜力。多模态大型语言模型（MLLMs）将LLMs与视觉模型集成，以处理包括临床数据和医学图像在内的多样化输入。在眼科领域，LLMs已被用于分析光学相干断层扫描（OCT）报告、辅助疾病分类，甚至预测治疗结果。然而，现有的MLLM基准通常无法捕捉真实临床实践的复杂性，尤其是在OCT图像分析方面。它们面临样本量小、缺乏多样化的OCT数据集以及缺乏专家验证等局限性，阻碍了对MLLM解释OCT扫描能力及其在眼科领域更广泛适用性的准确评估。本研究构建了一个包含439张眼底图像和75张OCT图像的数据集，并通过严格的质量控制和专家标注。使用标准化的API框架，评估了七个主流MLLM，并观察到不同疾病诊断准确性存在显著差异。虽然一些模型在诊断糖尿病视网膜病变和年龄相关性黄斑变性等疾病方面表现良好，但在脉络膜新生血管和近视等疾病上表现不佳，突出了性能的不一致性以及进一步改进的必要性。研究结果强调了开发临床相关基准以更准确评估MLLM能力的重要性。通过改进这些模型并扩大其范围，可以增强它们在眼科诊断和治疗中转化的潜力。

🔬 方法详解

问题定义：现有MLLM基准在评估模型对眼科OCT图像的理解和分析能力方面存在不足。具体表现为数据集规模小，缺乏多样性，并且缺乏专业的眼科医生进行标注和验证，导致评估结果无法准确反映模型在真实临床环境中的表现。现有方法难以捕捉真实临床实践的复杂性，阻碍了MLLM在眼科领域的应用。

核心思路：本研究的核心思路是构建一个高质量、大规模、多样化的眼科多模态数据集，并由专业的眼科医生进行标注和验证，从而为MLLM的评估提供更可靠的依据。通过使用标准化的API框架，可以方便地评估不同的MLLM，并比较它们在不同眼科疾病诊断上的表现。

技术框架：该研究的技术框架主要包括以下几个部分：1) 数据收集：收集包含眼底彩照和OCT图像的眼科数据集；2) 数据清洗和质量控制：对收集到的数据进行清洗，去除质量较差的图像，并进行严格的质量控制；3) 专家标注：由专业的眼科医生对图像进行标注，包括疾病类型、病灶位置等信息；4) MLLM评估：使用标准化的API框架，评估不同的MLLM在眼科疾病诊断上的表现；5) 结果分析：对评估结果进行分析，找出模型的优点和不足，并提出改进建议。

关键创新：本研究的关键创新在于构建了一个高质量、大规模、多样化的眼科多模态数据集，并由专业的眼科医生进行标注和验证。该数据集可以为MLLM的评估提供更可靠的依据，并促进MLLM在眼科领域的应用。此外，使用标准化的API框架可以方便地评估不同的MLLM，并比较它们在不同眼科疾病诊断上的表现。

关键设计：数据集包含439张眼底图像和75张OCT图像。使用标准化的API框架进行模型评估。评估了七个主流MLLM。针对不同眼科疾病，分析了模型的诊断准确率。具体的技术细节，如图像预处理方法、标注规范、API框架的具体实现等，论文中可能未详细描述，属于未知信息。

🖼️ 关键图片

📊 实验亮点

研究结果表明，不同的MLLM在诊断不同眼科疾病时表现出显著差异。例如，一些模型在诊断糖尿病视网膜病变和年龄相关性黄斑变性方面表现良好，但在脉络膜新生血管和近视等疾病上表现不佳。这表明现有的MLLM在眼科疾病诊断方面仍存在局限性，需要进一步改进和优化。具体性能数据和对比基线在摘要中未给出具体数值。

🎯 应用场景

该研究成果可应用于眼科疾病的辅助诊断、远程医疗、患者教育等领域。通过提高MLLM在眼科图像分析方面的能力，可以帮助医生更准确地诊断疾病，提高诊断效率，并为患者提供更好的医疗服务。未来，该研究还可以扩展到其他医学影像领域，为更广泛的医疗应用提供支持。

📄 摘要（原文）

In recent years, large language models (LLMs) have demonstrated remarkable potential across various medical applications. Building on this foundation, multimodal large language models (MLLMs) integrate LLMs with visual models to process diverse inputs, including clinical data and medical images. In ophthalmology, LLMs have been explored for analyzing optical coherence tomography (OCT) reports, assisting in disease classification, and even predicting treatment outcomes. However, existing MLLM benchmarks often fail to capture the complexities of real-world clinical practice, particularly in the analysis of OCT images. Many suffer from limitations such as small sample sizes, a lack of diverse OCT datasets, and insufficient expert validation. These shortcomings hinder the accurate assessment of MLLMs' ability to interpret OCT scans and their broader applicability in ophthalmology. Our dataset, curated through rigorous quality control and expert annotation, consists of 439 fundus images and 75 OCT images. Using a standardized API-based framework, we assessed seven mainstream MLLMs and observed significant variability in diagnostic accuracy across different diseases. While some models performed well in diagnosing conditions such as diabetic retinopathy and age-related macular degeneration, they struggled with others, including choroidal neovascularization and myopia, highlighting inconsistencies in performance and the need for further refinement. Our findings emphasize the importance of developing clinically relevant benchmarks to provide a more accurate assessment of MLLMs' capabilities. By refining these models and expanding their scope, we can enhance their potential to transform ophthalmic diagnosis and treatment.

A Novel Ophthalmic Benchmark for Evaluating Multimodal Large Language Models with Fundus Photographs and OCT Images

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理