MediX-R1: Open Ended Medical Reinforcement Learning

作者: Sahal Shaji Mullappilly, Mohammed Irfan Kurpath, Omair Mohamed, Mohamed Zidan, Fahad Khan, Salman Khan, Rao Anwer, Hisham Cholakkal

分类: cs.CV

发布日期: 2026-02-28

💡 一句话要点

MediX-R1：用于医学多模态大语言模型的开放式强化学习框架

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 医学多模态大语言模型 强化学习 复合奖励函数 开放式问答 医学推理

📋 核心要点

现有医学多模态模型在开放式临床问题上表现不足，难以生成自由形式且临床可靠的答案。
MediX-R1利用强化学习，设计了包含准确性、语义、格式和模态奖励的复合奖励函数，引导模型生成高质量答案。
实验表明，MediX-R1在医学LLM和VLM基准测试中表现出色，尤其在开放式临床任务中提升显著。

📝 摘要（中文）

MediX-R1是一个开放式的强化学习（RL）框架，专为医学多模态大语言模型（MLLM）设计，旨在实现临床上可靠的、自由形式的答案，超越传统的选择题格式。MediX-R1通过基于群组的强化学习和复合奖励来微调基线视觉-语言骨干网络，该复合奖励专为医学推理定制：基于LLM的准确性奖励，以严格的YES/NO决策判断语义正确性；基于医学嵌入的语义奖励，以捕捉释义和术语变体；以及轻量级的格式和模态奖励，以强制可解释的推理和模态识别。这种多信号设计为开放式输出提供了稳定、信息丰富的反馈，而传统的、可验证的或仅限MCQ的奖励则不足。为了衡量进展，我们提出了一个统一的评估框架，用于纯文本和图像+文本任务，该框架使用基于参考的LLM作为评判者，取代了脆弱的字符串重叠指标，从而捕捉语义正确性、推理和上下文对齐。尽管仅使用了约5.1万个指令示例，但MediX-R1在标准医学LLM（纯文本）和VLM（图像+文本）基准测试中取得了优异的成绩，优于强大的开源基线，并在开放式临床任务中实现了特别大的收益。我们的结果表明，具有全面奖励信号和基于LLM的评估的开放式RL是多模态模型中可靠医学推理的实用途径。我们训练的模型、整理的数据集和源代码均可用。

🔬 方法详解

问题定义：现有医学多模态大语言模型主要集中在选择题或封闭式问答，难以应对需要自由形式答案的开放式临床问题。现有的奖励函数（如字符串匹配）难以准确评估开放式答案的语义正确性和临床相关性，导致模型难以学习到可靠的医学推理能力。

核心思路：MediX-R1的核心思路是利用强化学习，通过精心设计的复合奖励函数来引导模型生成高质量的开放式医学答案。该方法不再依赖于简单的字符串匹配，而是利用大型语言模型（LLM）作为裁判，结合医学嵌入和模态信息，更准确地评估答案的语义正确性、临床相关性和可解释性。

技术框架：MediX-R1的整体框架包括以下几个主要模块：1) 基于视觉-语言骨干网络的模型；2) 基于群组的强化学习算法，用于稳定训练过程；3) 复合奖励函数，包含LLM准确性奖励、医学嵌入语义奖励、格式奖励和模态奖励；4) 基于LLM的评估框架，用于统一评估文本和图像+文本任务。模型通过与环境交互，根据复合奖励调整策略，最终生成高质量的医学答案。

关键创新：MediX-R1的关键创新在于其复合奖励函数和基于LLM的评估框架。传统的奖励函数难以捕捉开放式答案的细微差别，而MediX-R1利用LLM的强大语义理解能力，更准确地评估答案的正确性、推理能力和上下文对齐。此外，医学嵌入语义奖励能够捕捉释义和术语变体，提高了模型的鲁棒性。

关键设计：复合奖励函数是MediX-R1的关键设计之一。LLM准确性奖励使用LLM判断答案的语义正确性（YES/NO）。医学嵌入语义奖励计算生成答案和参考答案在医学知识图谱中的嵌入相似度。格式奖励鼓励模型生成结构化的、可解释的答案。模态奖励确保模型正确识别和利用输入模态（文本或图像）。这些奖励的权重需要仔细调整，以平衡不同方面的性能。

🖼️ 关键图片

📊 实验亮点

MediX-R1在标准医学LLM和VLM基准测试中取得了优异的成绩，尤其在开放式临床任务中实现了显著提升。例如，在某些开放式问答任务中，MediX-R1的性能超越了强大的开源基线，证明了开放式强化学习和复合奖励信号的有效性。该模型仅使用约5.1万个指令示例就达到了如此高的性能，表明其具有良好的数据效率。

🎯 应用场景

MediX-R1具有广泛的应用前景，可用于辅助医生进行临床决策、提供医学教育和培训、以及改善患者的健康管理。该框架可以应用于各种医学场景，例如疾病诊断、治疗方案制定、医学影像分析等。未来，MediX-R1有望成为医疗领域的重要工具，提高医疗效率和质量。

📄 摘要（原文）

We introduce MediX-R1, an open-ended Reinforcement Learning (RL) framework for medical multimodal large language models (MLLMs) that enables clinically grounded, free-form answers beyond multiple-choice formats. MediX-R1 fine-tunes a baseline vision-language backbone with Group Based RL and a composite reward tailored for medical reasoning: an LLM-based accuracy reward that judges semantic correctness with a strict YES/NO decision, a medical embedding-based semantic reward to capture paraphrases and terminology variants, and lightweight format and modality rewards that enforce interpretable reasoning and modality recognition. This multi-signal design provides stable, informative feedback for open-ended outputs where traditional verifiable or MCQ-only rewards fall short. To measure progress, we propose a unified evaluation framework for both text-only and image+text tasks that uses a Reference-based LLM-as-judge in place of brittle string-overlap metrics, capturing semantic correctness, reasoning, and contextual alignment. Despite using only $\sim51$K instruction examples, MediX-R1 achieves excellent results across standard medical LLM (text-only) and VLM (image + text) benchmarks, outperforming strong open-source baselines and delivering particularly large gains on open-ended clinical tasks. Our results demonstrate that open-ended RL with comprehensive reward signals and LLM-based evaluation is a practical path toward reliable medical reasoning in multimodal models. Our trained models, curated datasets and source code are available atthis https URL

MediX-R1: Open Ended Medical Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理