An integrated language-vision foundation model for conversational diagnostics and triaging in primary eye care

📄 arXiv: 2505.08414v1 📥 PDF

作者: Zhi Da Soh, Yang Bai, Kai Yu, Yang Zhou, Xiaofeng Lei, Sahil Thakur, Zann Lee, Lee Ching Linette Phang, Qingsheng Peng, Can Can Xue, Rachel Shujuan Chong, Quan V. Hoang, Lavanya Raghavan, Yih Chung Tham, Charumathi Sabanayagam, Wei-Chi Wu, Ming-Chih Ho, Jiangnan He, Preeti Gupta, Ecosse Lamoureux, Seang Mei Saw, Vinay Nangia, Songhomitra Panda-Jonas, Jie Xu, Ya Xing Wang, Xinxing Xu, Jost B. Jonas, Tien Yin Wong, Rick Siow Mong Goh, Yong Liu, Ching-Yu Cheng

分类: eess.IV, cs.CV

发布日期: 2025-05-13


💡 一句话要点

提出Meta-EyeFM,用于眼科初级诊疗的集成语言-视觉基础模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 眼科诊断 语言-视觉模型 大型语言模型 视觉基础模型 多模态融合 低秩自适应 眼底图像分析

📋 核心要点

  1. 现有深度学习模型通常是任务特定的,缺乏用户友好的操作界面,限制了其在眼科初级诊疗中的应用。
  2. Meta-EyeFM集成了LLM和VFM,通过路由机制实现基于文本查询的特定任务分析,从而提供更灵活和准确的诊断。
  3. 实验结果表明,Meta-EyeFM在眼科疾病检测和严重程度区分方面表现出色,优于现有LLM,并与眼科医生水平相当。

📝 摘要(中文)

本文提出Meta-EyeFM,一个集成了大型语言模型(LLM)和视觉基础模型(VFM)的多功能基础模型,用于眼科疾病评估。Meta-EyeFM利用路由机制,能够基于文本查询实现精确的特定任务分析。通过低秩自适应(Low Rank Adaptation),对VFM进行微调,以检测眼部和全身疾病,区分眼部疾病的严重程度,并识别常见的眼部体征。该模型在将眼底图像路由到适当的VFM方面实现了100%的准确率,并且在疾病检测、严重程度区分和体征识别方面分别达到了≥82.2%、≥89%和≥76%的准确率。Meta-EyeFM在检测各种眼部疾病方面比Gemini-1.5-flash和ChatGPT-4o LMM的准确率高出11%到43%,并且与眼科医生相当。该系统提供了增强的可用性和诊断性能,使其成为初级眼科保健的有价值的决策支持工具或用于眼底评估的在线LLM。

🔬 方法详解

问题定义:论文旨在解决眼科初级诊疗中,现有深度学习模型任务单一、缺乏用户友好界面的问题。现有方法难以根据用户输入的文本查询,灵活地进行特定任务的眼科疾病诊断和评估,限制了其在实际应用中的价值。

核心思路:论文的核心思路是将大型语言模型(LLM)与视觉基础模型(VFM)集成,构建一个多功能的Meta-EyeFM。通过LLM理解用户输入的文本查询,并利用路由机制将查询引导至相应的VFM进行图像分析,从而实现灵活且准确的眼科疾病诊断。

技术框架:Meta-EyeFM的整体架构包含以下几个主要模块:1) 文本查询处理模块:利用LLM理解用户输入的文本查询。2) 路由模块:根据文本查询,将图像路由到相应的VFM。3) 视觉基础模型(VFM):用于眼部和全身疾病检测、疾病严重程度区分以及眼部体征识别。4) 结果整合模块:将VFM的输出结果与LLM的理解相结合,生成最终的诊断报告。

关键创新:Meta-EyeFM的关键创新在于集成了LLM和VFM,并引入了路由机制。这种集成方式使得模型能够根据用户输入的文本查询,动态地选择合适的VFM进行图像分析,从而实现了更灵活和准确的眼科疾病诊断。与现有方法相比,Meta-EyeFM不再局限于单一任务,而是能够根据用户的需求,执行不同的诊断任务。

关键设计:论文使用了低秩自适应(Low Rank Adaptation)技术对VFM进行微调,以提高其在眼科疾病诊断方面的性能。具体的参数设置、损失函数和网络结构等技术细节在论文中未详细说明,属于未知信息。

📊 实验亮点

Meta-EyeFM在将眼底图像路由到适当的VFM方面实现了100%的准确率。在疾病检测、严重程度区分和体征识别方面分别达到了≥82.2%、≥89%和≥76%的准确率。在检测各种眼部疾病方面,Meta-EyeFM比Gemini-1.5-flash和ChatGPT-4o LMM的准确率高出11%到43%,并且与眼科医生水平相当。

🎯 应用场景

Meta-EyeFM可应用于初级眼科保健,为医生提供决策支持,提高诊断效率和准确性。此外,该模型还可作为在线LLM用于眼底评估,方便患者进行初步的自我筛查。该研究有望推动眼科诊疗的智能化和普及化,尤其是在医疗资源匮乏的地区。

📄 摘要(原文)

Current deep learning models are mostly task specific and lack a user-friendly interface to operate. We present Meta-EyeFM, a multi-function foundation model that integrates a large language model (LLM) with vision foundation models (VFMs) for ocular disease assessment. Meta-EyeFM leverages a routing mechanism to enable accurate task-specific analysis based on text queries. Using Low Rank Adaptation, we fine-tuned our VFMs to detect ocular and systemic diseases, differentiate ocular disease severity, and identify common ocular signs. The model achieved 100% accuracy in routing fundus images to appropriate VFMs, which achieved $\ge$ 82.2% accuracy in disease detection, $\ge$ 89% in severity differentiation, $\ge$ 76% in sign identification. Meta-EyeFM was 11% to 43% more accurate than Gemini-1.5-flash and ChatGPT-4o LMMs in detecting various eye diseases and comparable to an ophthalmologist. This system offers enhanced usability and diagnostic performance, making it a valuable decision support tool for primary eye care or an online LLM for fundus evaluation.