Fundus-R1: Training a Fundus-Reading MLLM with Knowledge-Aware Reasoning on Public Data

📄 arXiv: 2604.08322v1 📥 PDF

作者: Yuchuan Deng, Qijie Wei, Kaiheng Qian, Jiazhen Liu, Zijie Xin, Bangxiang Lan, Jingyu Liu, Jianfeng Dong, Xirong Li

分类: cs.CV

发布日期: 2026-04-09


💡 一句话要点

提出Fundus-R1,利用公共数据训练具备知识推理能力的眼底影像多模态大语言模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 眼底图像理解 多模态大语言模型 知识推理 检索增强生成 强化学习 医学影像 公共数据集

📋 核心要点

  1. 眼底图像理解依赖大量专业知识,现有方法依赖私有数据和昂贵的标注,限制了研究的广泛开展。
  2. Fundus-R1利用公共数据,通过RAG生成知识感知的推理轨迹,并用过程奖励强化学习,提升模型推理能力。
  3. 实验表明,Fundus-R1在多个眼底图像基准测试中超越了通用MLLM和使用相同数据但无推理轨迹训练的模型。

📝 摘要(中文)

眼底成像技术,如CFP、OCT和UWF,对于视网膜异常和疾病的早期检测至关重要。眼底图像理解是一项知识密集型的视觉-语言任务,极具挑战性。一种新兴方法是在大量内部数据上,通过监督微调(SFT)或基于可验证奖励的强化学习(RLVR),对通用多模态大语言模型(MLLM)进行后训练,这些数据通常配有高质量的临床报告。然而,这些有价值的样本无法公开获取,这不仅阻碍了可重复性,而且实际上限制了少数参与者的研究。为了克服这一障碍,我们首次尝试仅使用公共数据集训练一个推理增强的眼底阅读MLLM,我们称之为Fundus-R1,其中超过94%的数据仅标注了图像级别的标签。我们的技术贡献是双重的。首先,我们提出了一种基于RAG的方法,用于构建特定于图像的、知识感知的推理轨迹。这种自动生成的轨迹将通用MLLM识别的视觉发现与眼科知识相关的图像标签联系起来。其次,我们使用过程奖励来增强RLVR,该奖励鼓励每次rollout中生成的推理轨迹的自我一致性。在FunBench、Omni-Fundus和GMAI-Fundus三个眼底阅读基准上的大量实验表明,Fundus-R1明显优于多个基线,包括其通用版本(Qwen2.5-VL)和一个更强的、未使用生成轨迹进行后训练的版本。这项工作为使用公开可用的数据训练强大的眼底阅读MLLM铺平了道路。

🔬 方法详解

问题定义:论文旨在解决眼底图像理解任务中,由于高质量标注数据稀缺且多为私有数据,导致难以训练高性能多模态大语言模型的问题。现有方法依赖大量内部数据进行监督微调或强化学习,但这些数据无法公开获取,限制了研究的可重复性和广泛性。

核心思路:论文的核心思路是利用公开可用的、仅包含图像级别标签的眼底图像数据,通过自动生成知识感知的推理轨迹来增强模型的推理能力。具体来说,通过检索增强生成(RAG)方法,将视觉发现与眼科知识联系起来,构建图像特定的推理过程,从而弥补数据标注不足的问题。

技术框架:Fundus-R1的整体框架包含以下几个主要模块:1) 基于RAG的推理轨迹生成模块:该模块利用通用MLLM识别图像中的视觉特征,并结合眼科知识库,生成与图像标签相关的推理轨迹。2) 基于强化学习的训练模块:该模块使用RLVR方法,利用生成推理轨迹训练MLLM,并引入过程奖励,鼓励生成轨迹的自我一致性。3) MLLM主干网络:论文使用Qwen2.5-VL作为MLLM的主干网络。

关键创新:论文最重要的技术创新点在于提出了基于RAG的知识感知推理轨迹生成方法,以及利用过程奖励增强强化学习训练过程。与现有方法相比,该方法无需依赖高质量的临床报告,仅使用公开可用的图像级别标签数据即可训练高性能的眼底图像理解模型。

关键设计:在RAG模块中,论文设计了特定的提示工程,引导MLLM生成包含视觉发现和眼科知识的推理轨迹。在强化学习模块中,过程奖励被设计为鼓励生成的推理轨迹在不同rollout中保持一致,从而提高模型的稳定性和可靠性。具体参数设置和损失函数细节在论文中进行了详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Fundus-R1在FunBench、Omni-Fundus和GMAI-Fundus三个眼底阅读基准测试中均取得了显著的性能提升。例如,在FunBench数据集上,Fundus-R1超越了其通用版本Qwen2.5-VL,并且优于使用相同数据但没有使用生成轨迹进行后训练的模型。这些实验结果表明,所提出的知识感知推理轨迹生成方法和强化学习训练策略能够有效提升模型的推理能力。

🎯 应用场景

Fundus-R1的潜在应用领域包括眼科疾病的早期筛查、辅助诊断和远程医疗。该研究的实际价值在于降低了眼底图像理解模型的训练成本,使得更多研究者和医疗机构能够利用公开数据构建高性能的眼底图像分析系统。未来,该方法可以推广到其他医学影像领域,促进人工智能在医疗领域的应用。

📄 摘要(原文)

Fundus imaging such as CFP, OCT and UWF is crucial for the early detection of retinal anomalies and diseases. Fundus image understanding, due to its knowledge-intensive nature, poses a challenging vision-language task. An emerging approach to addressing the task is to post-train a generic multimodal large language model (MLLM), either by supervised finetuning (SFT) or by reinforcement learning with verifiable rewards (RLVR), on a considerable amount of in-house samples paired with high-quality clinical reports. However, these valuable samples are not publicly accessible, which not only hinders reproducibility but also practically limits research to few players. To overcome the barrier, we make a novel attempt to train a reasoning-enhanced fundus-reading MLLM, which we term Fundus-R1, using exclusively public datasets, wherein over 94\% of the data are annotated with only image-level labels. Our technical contributions are two-fold. First, we propose a RAG-based method for composing image-specific, knowledge-aware reasoning traces. Such auto-generated traces link visual findings identified by a generic MLLM to the image labels in terms of ophthalmic knowledge. Second, we enhance RLVR with a process reward that encourages self-consistency of the generated reasoning trace in each rollout. Extensive experiments on three fundus-reading benchmarks, i.e., FunBench, Omni-Fundus and GMAI-Fundus, show that Fundus-R1 clearly outperforms multiple baselines, including its generic counterpart (Qwen2.5-VL) and a stronger edition post-trained without using the generated traces. This work paves the way for training powerful fundus-reading MLLMs with publicly available data.