EditGRPO: Reinforcement Learning with Post-Rollout Edits for Clinically Accurate Chest X-Ray Report Generation
作者: Kai Zhang, Christopher Malon, Lichao Sun, Martin Renqiang Min
分类: cs.CL
发布日期: 2025-09-26 (更新: 2025-11-10)
备注: AACL 2025
💡 一句话要点
EditGRPO:利用后验编辑的强化学习提升胸部X光报告的临床准确性
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 放射学报告生成 强化学习 混合策略 临床有效性 多模态大语言模型
📋 核心要点
- 现有放射学报告生成方法,特别是基于监督微调的多模态大语言模型,未能充分与临床有效性对齐。
- EditGRPO提出一种混合策略强化学习算法,通过在训练中引入句子级别的校正,结合on-policy探索和off-policy指导。
- 实验表明,EditGRPO在临床指标和领域外泛化能力上均优于现有方法,例如在临床指标上平均提升3.4%。
📝 摘要(中文)
放射学报告生成需要先进的医学图像分析、有效的时间推理和准确的文本生成。尽管最近的创新,特别是多模态大型语言模型,已经显示出性能的提高,但它们的监督微调(SFT)目标并没有明确地与临床有效性对齐。本文介绍了一种混合策略强化学习算法EditGRPO,专门用于通过临床驱动的奖励来优化生成过程。EditGRPO通过在训练过程中注入句子级别的详细校正,将on-policy探索与off-policy指导相结合。这种混合策略方法解决了RL中常见的探索困境和采样效率问题。应用于Qwen2.5-VL-3B,EditGRPO优于SFT和vanilla GRPO基线,在四个主要数据集上的临床指标平均提高了3.4%。值得注意的是,EditGRPO还表现出卓越的领域外泛化能力,在未见过的数据集上的平均性能提升为5.9%。
🔬 方法详解
问题定义:放射学报告生成任务旨在根据医学图像(如胸部X光片)自动生成准确且具有临床价值的报告。现有方法,特别是基于监督微调(SFT)的多模态大语言模型,虽然在文本生成方面有所提升,但其优化目标与临床有效性并不完全一致,导致生成的报告可能缺乏临床准确性或重要细节。此外,强化学习在该领域的应用面临探索困境和采样效率低下的问题。
核心思路:EditGRPO的核心思路是利用强化学习直接优化报告的临床有效性,通过精心设计的奖励函数来鼓励生成更准确、更全面的报告。为了解决强化学习中的探索问题,EditGRPO采用了一种混合策略,结合了on-policy探索和off-policy指导。具体来说,在训练过程中,模型不仅根据自身的策略生成报告,还会接受句子级别的详细校正,从而更有效地探索状态空间并学习到更优的策略。
技术框架:EditGRPO的技术框架主要包括以下几个部分:1) 一个多模态大语言模型(例如Qwen2.5-VL-3B)作为报告生成器;2) 一个强化学习模块,用于优化生成器的策略;3) 一个校正模块,用于在训练过程中提供句子级别的校正;4) 一个奖励函数,用于评估生成报告的临床有效性。训练过程包括:首先,生成器根据当前策略生成报告;然后,校正模块对报告进行句子级别的校正;最后,奖励函数根据校正后的报告计算奖励,并利用强化学习算法更新生成器的策略。
关键创新:EditGRPO的关键创新在于其混合策略强化学习方法,该方法通过在训练过程中注入句子级别的详细校正,有效地结合了on-policy探索和off-policy指导。这种混合策略解决了传统强化学习中的探索困境和采样效率问题,使得模型能够更有效地学习到更优的策略。此外,EditGRPO还采用了临床驱动的奖励函数,直接优化报告的临床有效性。
关键设计:EditGRPO的关键设计包括:1) 句子级别的校正模块,该模块能够提供详细的校正信息,帮助模型更好地理解报告的不足之处;2) 临床驱动的奖励函数,该函数能够准确地评估报告的临床有效性,并引导模型生成更准确、更全面的报告;3) 混合策略强化学习算法,该算法能够有效地结合on-policy探索和off-policy指导,提高训练效率和性能。
🖼️ 关键图片
📊 实验亮点
EditGRPO在四个主要数据集上取得了显著的性能提升,临床指标平均提高了3.4%,超过了SFT和vanilla GRPO基线。更重要的是,EditGRPO在领域外泛化能力方面表现出色,在未见过的数据集上的平均性能提升为5.9%,表明该方法具有很强的鲁棒性和泛化能力。这些实验结果充分证明了EditGRPO的有效性和优越性。
🎯 应用场景
EditGRPO具有广泛的应用前景,可用于辅助放射科医生进行报告生成,提高诊断效率和准确性。该技术可以应用于各种医学影像报告生成任务,例如胸部X光、CT、MRI等。此外,EditGRPO还可以用于医疗教育和培训,帮助医学生和年轻医生学习如何撰写高质量的放射学报告。未来,该技术有望进一步发展,实现更智能、更个性化的报告生成。
📄 摘要(原文)
Radiology report generation requires advanced medical image analysis, effective temporal reasoning, and accurate text generation. Although recent innovations, particularly multimodal large language models, have shown improved performance, their supervised fine-tuning (SFT) objective is not explicitly aligned with clinical efficacy. In this work, we introduce EditGRPO, a mixed-policy reinforcement learning algorithm designed specifically to optimize the generation through clinically motivated rewards. EditGRPO integrates on-policy exploration with off-policy guidance by injecting sentence-level detailed corrections during training rollouts. This mixed-policy approach addresses the exploration dilemma and sampling efficiency issues typically encountered in RL. Applied to a Qwen2.5-VL-3B, EditGRPO outperforms both SFT and vanilla GRPO baselines, achieving an average improvement of 3.4\% in clinical metrics across four major datasets. Notably, EditGRPO also demonstrates superior out-of-domain generalization, with an average performance gain of 5.9\% on unseen datasets.