CX-Mind: A Pioneering Multimodal Large Language Model for Interleaved Reasoning in Chest X-ray via Curriculum-Guided Reinforcement Learning
作者: Wenjie Li, Yujie Zhang, Haoran Sun, Yueqi Li, Fanrui Zhang, Mengzhe Xu, Victoria Borja Clausich, Sade Mellin, Renhao Yang, Chenrun Wang, Jethro Zih-Shuo Wang, Shiyi Yao, Gen Li, Yidong Xu, Hanyu Wang, Yilin Huang, Angela Lin Wang, Chen Shi, Yin Zhang, Jianan Guo, Luqi Yang, Renxuan Li, Yang Xu, Jiawei Liu, Yao Zhang, Lei Liu, Carlos Gutiérrez SanRomán, Lei Wang
分类: cs.LG, cs.AI, cs.CL, cs.CV
发布日期: 2025-07-31
💡 一句话要点
CX-Mind:基于课程引导强化学习的胸部X光片多模态大语言模型,实现交错推理
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 胸部X光片诊断 多模态大语言模型 交错推理 强化学习 课程学习 医学影像 可解释性 临床应用
📋 核心要点
- 现有医学多模态大语言模型缺乏对推理过程的有效监督,导致在胸部X光片诊断中出现推理冗长、奖励稀疏和幻觉等问题。
- CX-Mind通过课程引导强化学习和可验证的过程奖励,实现了胸部X光片任务的交错“思考-回答”推理,提升了诊断效率和可解释性。
- 实验结果表明,CX-Mind在视觉理解、文本生成和时空对齐方面显著优于现有模型,并在真实临床数据集中取得了优异的诊断性能。
📝 摘要(中文)
胸部X光片(CXR)成像是临床实践中最广泛使用的诊断方式之一,涵盖了广泛的诊断任务。最近的进展表明,基于推理的多模态大语言模型(MLLM)在医学成像中得到了广泛应用,以提高诊断效率和可解释性。然而,现有的多模态模型主要依赖于“一次性”诊断方法,缺乏对推理过程的可验证监督。这给多任务CXR诊断带来了挑战,包括冗长的推理、稀疏的奖励和频繁的幻觉。为了解决这些问题,我们提出了CX-Mind,这是第一个生成模型,通过基于课程的强化学习和可验证的过程奖励(CuRL-VPR)实现CXR任务的交错“思考-回答”推理。具体来说,我们构建了一个指令调优数据集CX-Set,包含708,473张图像和2,619,148个样本,并生成了42,828个高质量的交错推理数据点,由临床报告监督。优化在Group Relative Policy Optimization框架下分两个阶段进行:首先通过封闭域任务稳定基本推理,然后转移到开放域诊断,结合基于规则的条件过程奖励,绕过对预训练奖励模型的需求。大量的实验结果表明,CX-Mind在视觉理解、文本生成和时空对齐方面显著优于现有的医学和通用领域MLLM,与同类CXR专用模型相比,平均性能提高了25.1%。在真实临床数据集(Rui-CXR)上,CX-Mind在14种疾病上的平均recall@1显著超过了第二好的结果,多中心专家评估进一步证实了其在多个维度上的临床效用。
🔬 方法详解
问题定义:现有医学多模态大语言模型在胸部X光片诊断中,主要采用“一次性”诊断方法,缺乏对推理过程的有效监督和验证。这导致模型在处理复杂病例时,容易出现推理过程冗长、奖励信号稀疏、以及产生与事实不符的“幻觉”等问题。这些问题限制了模型在临床实践中的应用。
核心思路:CX-Mind的核心思路是引入交错的“思考-回答”推理模式,并利用课程引导的强化学习和可验证的过程奖励来优化模型的推理过程。通过将诊断过程分解为多个步骤,并在每个步骤中进行监督和奖励,模型可以逐步学习到更准确、更可靠的推理策略。这种方法旨在解决现有模型推理过程不可控、易出错的问题。
技术框架:CX-Mind的整体框架包含以下几个主要模块:1) CX-Set数据集:包含大量的胸部X光片图像和对应的临床报告,用于指令调优。2) 交错推理模块:模型在每个推理步骤中,先“思考”并生成中间推理步骤,然后“回答”并给出诊断结果。3) 课程引导强化学习模块:通过逐步增加任务的难度,引导模型学习更复杂的推理策略。4) 可验证的过程奖励模块:根据预定义的规则,对每个推理步骤进行奖励或惩罚,以确保推理过程的正确性和可靠性。
关键创新:CX-Mind的关键创新在于:1) 提出了交错的“思考-回答”推理模式,使模型能够逐步进行诊断,并提供可解释的推理过程。2) 引入了课程引导的强化学习,使模型能够从简单到复杂地学习推理策略。3) 设计了可验证的过程奖励,无需预训练奖励模型,即可对推理过程进行有效监督和优化。这与现有方法中依赖一次性诊断和缺乏过程监督形成了鲜明对比。
关键设计:CX-Mind使用了Group Relative Policy Optimization (GRPO) 框架进行优化,分为两个阶段:第一阶段,使用封闭域任务稳定基本推理能力;第二阶段,将模型迁移到开放域诊断任务。在奖励函数设计上,采用了基于规则的条件过程奖励,根据推理步骤的正确性给予奖励或惩罚。数据集CX-Set包含708,473张图像和2,619,148个样本,并生成了42,828个高质量的交错推理数据点。
🖼️ 关键图片
📊 实验亮点
CX-Mind在多个实验中表现出色。在视觉理解、文本生成和时空对齐方面,CX-Mind显著优于现有的医学和通用领域MLLM,平均性能提升了25.1%。在真实临床数据集(Rui-CXR)上,CX-Mind在14种疾病上的平均recall@1显著超过了第二好的结果。多中心专家评估进一步证实了其在多个维度上的临床效用。
🎯 应用场景
CX-Mind具有广泛的潜在应用领域,包括辅助胸部X光片诊断、医学影像报告生成、以及医学教育和培训。该研究的实际价值在于提高诊断效率和准确性,减少医生的工作负担,并为患者提供更可靠的医疗服务。未来,该技术有望推广到其他医学影像领域,并与其他医疗人工智能技术相结合,构建更智能化的医疗诊断系统。
📄 摘要(原文)
Chest X-ray (CXR) imaging is one of the most widely used diagnostic modalities in clinical practice, encompassing a broad spectrum of diagnostic tasks. Recent advancements have seen the extensive application of reasoning-based multimodal large language models (MLLMs) in medical imaging to enhance diagnostic efficiency and interpretability. However, existing multimodal models predominantly rely on "one-time" diagnostic approaches, lacking verifiable supervision of the reasoning process. This leads to challenges in multi-task CXR diagnosis, including lengthy reasoning, sparse rewards, and frequent hallucinations. To address these issues, we propose CX-Mind, the first generative model to achieve interleaved "think-answer" reasoning for CXR tasks, driven by curriculum-based reinforcement learning and verifiable process rewards (CuRL-VPR). Specifically, we constructed an instruction-tuning dataset, CX-Set, comprising 708,473 images and 2,619,148 samples, and generated 42,828 high-quality interleaved reasoning data points supervised by clinical reports. Optimization was conducted in two stages under the Group Relative Policy Optimization framework: initially stabilizing basic reasoning with closed-domain tasks, followed by transfer to open-domain diagnostics, incorporating rule-based conditional process rewards to bypass the need for pretrained reward models. Extensive experimental results demonstrate that CX-Mind significantly outperforms existing medical and general-domain MLLMs in visual understanding, text generation, and spatiotemporal alignment, achieving an average performance improvement of 25.1% over comparable CXR-specific models. On real-world clinical dataset (Rui-CXR), CX-Mind achieves a mean recall@1 across 14 diseases that substantially surpasses the second-best results, with multi-center expert evaluations further confirming its clinical utility across multiple dimensions.