ChestX-Reasoner: Advancing Radiology Foundation Models with Reasoning through Step-by-Step Verification
作者: Ziqing Fan, Cheng Liang, Chaoyi Wu, Ya Zhang, Yanfeng Wang, Weidi Xie
分类: cs.AI, cs.CL, cs.CV
发布日期: 2025-04-29 (更新: 2025-05-21)
💡 一句话要点
ChestX-Reasoner:通过逐步验证推理提升放射学基础模型
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 放射诊断 多模态大语言模型 医学推理 过程监督 强化学习
📋 核心要点
- 医学AI模型常忽略临床实践中固有的结构化推理过程,导致诊断准确性受限。
- ChestX-Reasoner通过从临床报告中提取推理链,并结合过程监督和强化学习,模拟放射科医生的诊断过程。
- 实验表明,ChestX-Reasoner在推理能力和诊断准确性方面均显著优于现有医学和通用MLLM。
📝 摘要(中文)
本文提出了ChestX-Reasoner,一个放射诊断多模态大语言模型(MLLM),旨在利用从临床报告中挖掘的过程监督,反映放射科医生逐步推理的过程。作者构建了一个大型数据集,通过提取和提炼常规放射报告中的推理链。提出的两阶段训练框架结合了监督微调和过程奖励引导的强化学习,以使模型推理更好地与临床标准对齐。同时,作者引入了RadRBench-CXR,一个包含59K视觉问答样本和301K临床验证推理步骤的综合基准,并提出了RadRScore,一种评估推理事实性、完整性和有效性的指标。ChestX-Reasoner在诊断准确性和推理能力方面均优于现有的医学和通用领域MLLM,在推理能力方面分别提高了16%、5.9%和18%(对比最佳医学MLLM、最佳通用MLLM和其基础模型),在结果准确性方面分别提高了3.3%、24%和27%。所有资源均已开源,以促进医学推理MLLM的进一步研究。
🔬 方法详解
问题定义:现有医学AI模型,特别是用于放射诊断的模型,往往缺乏对临床医生逐步推理过程的模拟,导致诊断结果不够准确可靠。现有方法未能充分利用临床报告中蕴含的丰富推理信息,缺乏有效的过程监督机制。
核心思路:本文的核心思路是从放射科医生的临床报告中提取推理链,作为模型训练的监督信号,使模型能够学习并模仿医生的推理过程。通过过程监督和强化学习,引导模型生成更符合临床标准的推理步骤,从而提高诊断准确性和可解释性。
技术框架:ChestX-Reasoner的整体框架包含以下几个主要阶段:1) 数据构建:从放射报告中提取并提炼推理链,构建大规模数据集。2) 模型训练:采用两阶段训练框架,首先进行监督微调,然后使用过程奖励引导的强化学习。3) 基准测试:在RadRBench-CXR基准上评估模型性能,使用RadRScore评估推理能力。
关键创新:本文的关键创新在于:1) 过程监督:利用从临床报告中提取的推理链作为监督信号,引导模型学习医生的推理过程。2) 两阶段训练:结合监督微调和强化学习,提高模型推理能力和诊断准确性。3) RadRBench-CXR和RadRScore:提供了一个全面的基准和评估指标,用于评估医学推理MLLM的性能。
关键设计:在数据构建方面,作者设计了特定的算法来提取和提炼放射报告中的推理链。在训练方面,使用了过程奖励函数来引导强化学习,奖励模型生成符合临床标准的推理步骤。具体的网络结构和参数设置在论文中有详细描述,但摘要中未明确提及。
🖼️ 关键图片
📊 实验亮点
ChestX-Reasoner在RadRBench-CXR基准测试中表现出色,在推理能力方面,相比最佳医学MLLM、最佳通用MLLM和其基础模型,分别提高了16%、5.9%和18%。在结果准确性方面,分别提高了3.3%、24%和27%。这些结果表明,ChestX-Reasoner在医学推理方面具有显著优势。
🎯 应用场景
ChestX-Reasoner可应用于辅助放射诊断,提高诊断效率和准确性,减少误诊漏诊。该模型还可以用于医学教育,帮助医生学习和理解放射诊断的推理过程。未来,该研究可以扩展到其他医学影像领域,构建更通用的医学推理AI系统。
📄 摘要(原文)
Recent advances in reasoning-enhanced large language models (LLMs) and multimodal LLMs (MLLMs) have significantly improved performance in complex tasks, yet medical AI models often overlook the structured reasoning processes inherent in clinical practice. In this work, we present ChestX-Reasoner, a radiology diagnosis MLLM designed to leverage process supervision mined directly from clinical reports, reflecting the step-by-step reasoning followed by radiologists. We construct a large dataset by extracting and refining reasoning chains from routine radiology reports. Our two-stage training framework combines supervised fine-tuning and reinforcement learning guided by process rewards to better align model reasoning with clinical standards. We introduce RadRBench-CXR, a comprehensive benchmark featuring 59K visual question answering samples with 301K clinically validated reasoning steps, and propose RadRScore, a metric evaluating reasoning factuality, completeness, and effectiveness. ChestX-Reasoner outperforms existing medical and general-domain MLLMs in both diagnostic accuracy and reasoning ability, achieving 16%, 5.9%, and 18% improvements in reasoning ability compared to the best medical MLLM, the best general MLLM, and its base model, respectively, as well as 3.3%, 24%, and 27% improvements in outcome accuracy. All resources are open-sourced to facilitate further research in medical reasoning MLLMs.