MediX-R1: Open Ended Medical Reinforcement Learning
作者: Sahal Shaji Mullappilly, Mohammed Irfan Kurpath, Omair Mohamed, Mohamed Zidan, Fahad Khan, Salman Khan, Rao Anwer, Hisham Cholakkal
分类: cs.CV
发布日期: 2026-02-26
💡 一句话要点
MediX-R1:用于医学多模态大语言模型的开放式强化学习框架
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 医学多模态大语言模型 强化学习 开放式问答 医学推理 复合奖励函数
📋 核心要点
- 现有医学多模态大语言模型在开放式临床问题解答方面存在不足,难以生成自由形式且临床可靠的答案。
- MediX-R1通过引入基于群组的强化学习和复合奖励机制,优化模型在医学推理中的表现,鼓励可解释的推理和模态识别。
- 实验结果表明,MediX-R1在医学LLM和VLM基准测试中表现出色,尤其在开放式临床任务中取得了显著提升。
📝 摘要(中文)
本文提出了MediX-R1,一个开放式的强化学习(RL)框架,用于医学多模态大语言模型(MLLM),它能够生成临床上可靠的、自由形式的答案,超越了多项选择题的限制。MediX-R1使用基于群组的强化学习和为医学推理定制的复合奖励来微调基线视觉-语言骨干网络。该复合奖励包括:基于LLM的准确性奖励(判断语义正确性,给出严格的是/否决定),基于医学嵌入的语义奖励(捕捉释义和术语变体),以及轻量级的格式和模态奖励(强制可解释的推理和模态识别)。这种多信号设计为开放式输出提供了稳定、信息丰富的反馈,而传统的、可验证的或仅限多项选择题的奖励则无法做到这一点。为了衡量进展,我们提出了一个统一的评估框架,用于纯文本和图像+文本任务,该框架使用基于参考的LLM作为评判者,取代了脆弱的字符串重叠度量,从而捕捉语义正确性、推理和上下文对齐。尽管仅使用了约5.1万个指令示例,MediX-R1在标准医学LLM(纯文本)和VLM(图像+文本)基准测试中取得了优异的成绩,优于强大的开源基线,并在开放式临床任务中取得了特别大的收益。我们的结果表明,具有全面奖励信号和基于LLM的评估的开放式强化学习是多模态模型中可靠医学推理的实用途径。我们训练的模型、整理的数据集和源代码可在https://medix.cvmbzuai.com获得。
🔬 方法详解
问题定义:现有医学多模态大语言模型主要依赖于多项选择题形式的训练和评估,难以适应开放式的临床问题。传统的奖励函数(如字符串匹配)无法准确评估生成答案的语义正确性和临床相关性,导致模型难以进行有效的医学推理。现有方法缺乏对模型推理过程的可解释性约束,以及对不同模态信息(如图像和文本)的有效利用。
核心思路:MediX-R1的核心思路是利用强化学习,通过精心设计的复合奖励函数来引导模型生成更准确、更具临床意义的答案。该方法利用大语言模型(LLM)作为评判者,评估答案的语义正确性,并结合医学嵌入和格式/模态奖励,从而提供更全面和稳定的反馈信号。通过强化学习,模型可以学习生成自由形式的答案,并更好地利用多模态信息进行医学推理。
技术框架:MediX-R1框架主要包含以下几个模块:1) 基线视觉-语言骨干网络:用于提取图像和文本特征。2) 基于群组的强化学习:用于优化模型策略。3) 复合奖励函数:包括LLM准确性奖励、医学嵌入语义奖励和格式/模态奖励。4) 基于参考的LLM评估框架:用于评估模型在开放式任务中的表现。整个流程是,模型接收医学图像和文本作为输入,生成答案,然后通过复合奖励函数评估答案的质量,并利用强化学习算法更新模型参数。
关键创新:MediX-R1的关键创新在于其复合奖励函数和基于LLM的评估框架。传统的奖励函数往往依赖于字符串匹配,无法准确评估答案的语义正确性。MediX-R1利用LLM作为评判者,可以更准确地评估答案的语义和推理质量。此外,复合奖励函数结合了准确性、语义和格式/模态信息,从而提供更全面和稳定的反馈信号。
关键设计:复合奖励函数的设计是关键。LLM准确性奖励使用LLM判断答案的语义正确性,输出YES/NO。医学嵌入语义奖励使用医学知识图谱或预训练的医学嵌入模型来衡量答案与参考答案之间的语义相似度。格式/模态奖励鼓励模型生成符合特定格式的答案,并有效利用多模态信息。基于群组的强化学习用于稳定训练过程,避免模型陷入局部最优解。
🖼️ 关键图片
📊 实验亮点
MediX-R1在标准医学LLM和VLM基准测试中取得了优异的成绩,优于强大的开源基线。尤其是在开放式临床任务中,MediX-R1取得了显著的提升,表明其在生成自由形式且临床可靠的答案方面具有优势。该模型仅使用了约5.1万个指令示例,就达到了如此高的性能,证明了其训练效率和泛化能力。
🎯 应用场景
MediX-R1具有广泛的应用前景,可用于辅助医生进行诊断和治疗决策,提供个性化的医疗建议,以及进行医学教育和培训。该研究的成果可以应用于开发智能医疗助手、远程医疗平台和医学知识库等,从而提高医疗服务的效率和质量,改善患者的健康状况。
📄 摘要(原文)
We introduce MediX-R1, an open-ended Reinforcement Learning (RL) framework for medical multimodal large language models (MLLMs) that enables clinically grounded, free-form answers beyond multiple-choice formats. MediX-R1 fine-tunes a baseline vision-language backbone with Group Based RL and a composite reward tailored for medical reasoning: an LLM-based accuracy reward that judges semantic correctness with a strict YES/NO decision, a medical embedding-based semantic reward to capture paraphrases and terminology variants, and lightweight format and modality rewards that enforce interpretable reasoning and modality recognition. This multi-signal design provides stable, informative feedback for open-ended outputs where traditional verifiable or MCQ-only rewards fall short. To measure progress, we propose a unified evaluation framework for both text-only and image+text tasks that uses a Reference-based LLM-as-judge in place of brittle string-overlap metrics, capturing semantic correctness, reasoning, and contextual alignment. Despite using only $\sim51$K instruction examples, MediX-R1 achieves excellent results across standard medical LLM (text-only) and VLM (image + text) benchmarks, outperforming strong open-source baselines and delivering particularly large gains on open-ended clinical tasks. Our results demonstrate that open-ended RL with comprehensive reward signals and LLM-based evaluation is a practical path toward reliable medical reasoning in multimodal models. Our trained models, curated datasets and source code are available at https://medix.cvmbzuai.com