EditGRPO: Reinforcement Learning with Post-Rollout Edits for Clinically Accurate Chest X-Ray Report Generation

作者: Kai Zhang, Christopher Malon, Lichao Sun, Martin Renqiang Min

分类: cs.CL

发布日期: 2025-09-26 (更新: 2025-11-10)

备注: AACL 2025

💡 一句话要点

EditGRPO：利用后验编辑的强化学习提升胸部X光报告的临床准确性

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 放射学报告生成 强化学习 混合策略 临床有效性 多模态大语言模型

📋 核心要点

现有放射学报告生成方法，特别是基于监督微调的多模态大语言模型，未能充分与临床有效性对齐。
EditGRPO提出一种混合策略强化学习算法，通过在训练中引入句子级别的校正，结合on-policy探索和off-policy指导。
实验表明，EditGRPO在临床指标和领域外泛化能力上均优于现有方法，例如在临床指标上平均提升3.4%。

📝 摘要（中文）

放射学报告生成需要先进的医学图像分析、有效的时间推理和准确的文本生成。尽管最近的创新，特别是多模态大型语言模型，已经显示出性能的提高，但它们的监督微调（SFT）目标并没有明确地与临床有效性对齐。本文介绍了一种混合策略强化学习算法EditGRPO，专门用于通过临床驱动的奖励来优化生成过程。EditGRPO通过在训练过程中注入句子级别的详细校正，将on-policy探索与off-policy指导相结合。这种混合策略方法解决了RL中常见的探索困境和采样效率问题。应用于Qwen2.5-VL-3B，EditGRPO优于SFT和vanilla GRPO基线，在四个主要数据集上的临床指标平均提高了3.4%。值得注意的是，EditGRPO还表现出卓越的领域外泛化能力，在未见过的数据集上的平均性能提升为5.9%。

🔬 方法详解

问题定义：放射学报告生成任务旨在根据医学图像（如胸部X光片）自动生成准确且具有临床价值的报告。现有方法，特别是基于监督微调（SFT）的多模态大语言模型，虽然在文本生成方面有所提升，但其优化目标与临床有效性并不完全一致，导致生成的报告可能缺乏临床准确性或重要细节。此外，强化学习在该领域的应用面临探索困境和采样效率低下的问题。

核心思路：EditGRPO的核心思路是利用强化学习直接优化报告的临床有效性，通过精心设计的奖励函数来鼓励生成更准确、更全面的报告。为了解决强化学习中的探索问题，EditGRPO采用了一种混合策略，结合了on-policy探索和off-policy指导。具体来说，在训练过程中，模型不仅根据自身的策略生成报告，还会接受句子级别的详细校正，从而更有效地探索状态空间并学习到更优的策略。

技术框架：EditGRPO的技术框架主要包括以下几个部分：1) 一个多模态大语言模型（例如Qwen2.5-VL-3B）作为报告生成器；2) 一个强化学习模块，用于优化生成器的策略；3) 一个校正模块，用于在训练过程中提供句子级别的校正；4) 一个奖励函数，用于评估生成报告的临床有效性。训练过程包括：首先，生成器根据当前策略生成报告；然后，校正模块对报告进行句子级别的校正；最后，奖励函数根据校正后的报告计算奖励，并利用强化学习算法更新生成器的策略。

关键创新：EditGRPO的关键创新在于其混合策略强化学习方法，该方法通过在训练过程中注入句子级别的详细校正，有效地结合了on-policy探索和off-policy指导。这种混合策略解决了传统强化学习中的探索困境和采样效率问题，使得模型能够更有效地学习到更优的策略。此外，EditGRPO还采用了临床驱动的奖励函数，直接优化报告的临床有效性。

关键设计：EditGRPO的关键设计包括：1) 句子级别的校正模块，该模块能够提供详细的校正信息，帮助模型更好地理解报告的不足之处；2) 临床驱动的奖励函数，该函数能够准确地评估报告的临床有效性，并引导模型生成更准确、更全面的报告；3) 混合策略强化学习算法，该算法能够有效地结合on-policy探索和off-policy指导，提高训练效率和性能。

🖼️ 关键图片

📊 实验亮点

EditGRPO在四个主要数据集上取得了显著的性能提升，临床指标平均提高了3.4%，超过了SFT和vanilla GRPO基线。更重要的是，EditGRPO在领域外泛化能力方面表现出色，在未见过的数据集上的平均性能提升为5.9%，表明该方法具有很强的鲁棒性和泛化能力。这些实验结果充分证明了EditGRPO的有效性和优越性。

🎯 应用场景

EditGRPO具有广泛的应用前景，可用于辅助放射科医生进行报告生成，提高诊断效率和准确性。该技术可以应用于各种医学影像报告生成任务，例如胸部X光、CT、MRI等。此外，EditGRPO还可以用于医疗教育和培训，帮助医学生和年轻医生学习如何撰写高质量的放射学报告。未来，该技术有望进一步发展，实现更智能、更个性化的报告生成。

📄 摘要（原文）

Radiology report generation requires advanced medical image analysis, effective temporal reasoning, and accurate text generation. Although recent innovations, particularly multimodal large language models, have shown improved performance, their supervised fine-tuning (SFT) objective is not explicitly aligned with clinical efficacy. In this work, we introduce EditGRPO, a mixed-policy reinforcement learning algorithm designed specifically to optimize the generation through clinically motivated rewards. EditGRPO integrates on-policy exploration with off-policy guidance by injecting sentence-level detailed corrections during training rollouts. This mixed-policy approach addresses the exploration dilemma and sampling efficiency issues typically encountered in RL. Applied to a Qwen2.5-VL-3B, EditGRPO outperforms both SFT and vanilla GRPO baselines, achieving an average improvement of 3.4\% in clinical metrics across four major datasets. Notably, EditGRPO also demonstrates superior out-of-domain generalization, with an average performance gain of 5.9\% on unseen datasets.

EditGRPO: Reinforcement Learning with Post-Rollout Edits for Clinically Accurate Chest X-Ray Report Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理