OphIn-500K: Curating Web-Scale Visual Instructions for Scaling Ophthalmic Multimodal Large Language Models

📄 arXiv: 2605.27916v1 📥 PDF

作者: Xuanzhao Dong, Wenhui Zhu, Xiwen Chen, Hao Wang, Xin Li, Yujian Xiong, Jiajun Cheng, Jingjing Wang, Xiaobing Yu, Haiyu Wu, Shao Tang, Zhipeng Wang, Langechuan Liu, Shan Lin, Oana Dumitrascu, Yalin Wang

分类: cs.CV, cs.CL

发布日期: 2026-05-27


💡 一句话要点

提出OphIn-Engine与OphIn-500K,用于扩展眼科多模态大语言模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 眼科 多模态大语言模型 指令调优 视觉问答 临床对话

📋 核心要点

  1. 通用医学多模态大语言模型在眼科等专业领域的应用受限于缺乏大规模、领域特定的指令调优数据。
  2. 提出OphIn-Engine,通过多模态转录、视觉线索分离和指令合成,从网络视频中自动构建高质量眼科指令数据。
  3. 构建了包含50万指令实例的OphIn-500K数据集,并训练了OphIn-VL模型,实验表明其性能优于现有模型。

📝 摘要(中文)

本文提出OphIn-Engine,一个眼科专用指令数据生成流程,用于从开放获取的眼科网络视频中构建高质量的指令数据。该流程集成了多模态转录以提取图像-文本对,视觉线索分离和评分以识别临床相关的视觉描述,以及指令合成与质量控制以生成准确和多样的临床对话。利用该引擎,我们推出了OphIn-500K,一个大规模多模态眼科指令调优数据集,包含超过50万个指令实例和来自超过29000个视频片段的超过151000张独特图像,格式为视觉问答(VQA)、多轮对话交互和思维链(CoT)推理。基于此数据集,我们进一步开发了OphIn-VL,一个具有先进视觉理解和对话能力的眼科专用MLLM。综合实验和案例研究表明,与最先进的通用医学和领域专用MLLM相比,OphIn-VL取得了优异的性能。

🔬 方法详解

问题定义:现有通用医学多模态大语言模型(MLLMs)在眼科领域的应用受限于缺乏大规模、领域特定的指令调优数据。现有的眼科对话代理数据集规模有限,并且主要依赖于公共基准数据集中的图像,限制了眼科MLLM的可扩展性以及捕捉真实临床复杂性的能力。

核心思路:本文的核心思路是利用开放获取的网络眼科视频,通过自动化的数据挖掘和处理流程,构建大规模、高质量的眼科指令调优数据集。通过这种方式,可以克服现有数据集规模小、领域性不足的缺点,从而提升眼科MLLM的性能。

技术框架:OphIn-Engine包含以下几个主要模块:1) 多模态转录:从视频中提取图像和对应的文本描述;2) 视觉线索分离和评分:识别临床相关的视觉描述,过滤掉噪声信息;3) 指令合成与质量控制:生成准确和多样的临床对话,并进行质量控制。利用OphIn-Engine生成OphIn-500K数据集,并在此基础上训练眼科专用MLLM OphIn-VL。

关键创新:该方法最重要的创新点在于提出了一种自动化的、可扩展的眼科指令数据生成流程。与手动标注数据相比,该方法可以显著降低成本,并能够利用海量的网络视频资源。此外,视觉线索分离和评分模块能够有效过滤掉不相关的视觉信息,提高数据的质量。

关键设计:关于视觉线索分离和评分的具体实现细节,论文中可能使用了特定的视觉特征提取方法(例如,预训练的视觉模型)和评分函数。指令合成模块可能采用了基于模板或生成模型的方法,以生成多样化的临床对话。质量控制环节可能包含人工审核或基于规则的自动过滤。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OphIn-VL在眼科领域的视觉理解和对话能力方面表现出色,显著优于现有的通用医学和领域专用MLLM。OphIn-500K数据集包含超过50万个指令实例和151000张独特图像,为眼科MLLM的研究提供了宝贵资源。具体性能提升数据未知,需要在论文中查找。

🎯 应用场景

该研究成果可应用于构建智能眼科诊断助手,辅助医生进行疾病诊断、治疗方案制定和患者咨询。OphIn-500K数据集和OphIn-VL模型可以作为开源资源,促进眼科人工智能领域的发展。未来,该方法可以推广到其他医学专科领域,构建更强大的医学多模态大语言模型。

📄 摘要(原文)

The advancement of general medical Multimodal Large Language Models (MLLMs) has shown great potential for building conversational assistants to support clinical diagnosis. However, their adaptation to highly specialized domains such as ophthalmology remains underexplored, primarily due to the scarcity of large-scale, domain-specific instruction-tuning data. Existing ophthalmic datasets for conversational agents are often limited in scale and largely rely on images from established public benchmarks, limiting the scalability of ophthalmic MLLMs and their ability to capture real-world clinical complexity. To address this gap, we propose $\textbf{OphIn-Engine}$, an ophthalmology-specific instruction data curation pipeline that constructs high-quality instruction data from open-access ophthalmology web-scale videos. The pipeline integrates multimodal transcription for extracting image-transcript pairs, visual cue separation and scoring for identifying clinically relevant visual descriptions, and instruction synthesis with quality control for generating accurate and diverse clinical dialogues. Using this engine, we introduce $\textbf{OphIn-500K}$, a large-scale multimodal ophthalmology instruction-tuning dataset containing over 500,000 instruction instances and more than 151,000 unique images from over 29,000 video clips, formatted as visual question answering (VQA), multi-turn conversational interactions, and chain-of-thought (CoT) reasoning. Built upon this dataset, we further develop $\textbf{OphIn-VL}$, an ophthalmology-specific MLLM with advanced visual understanding and conversational capabilities. Comprehensive experiments and case studies demonstrate that OphIn-VL achieves superior performance compared with state-of-the-art general medical and domain-specific MLLMs.