Enhancing Reinforcement Learning for Radiology Report Generation with Evidence-aware Rewards and Self-correcting Preference Learning

📄 arXiv: 2604.13598v1 📥 PDF

作者: Qin Zhou, Guoyan Liang, Qianyi Yang, Jingyuan Chen, Sai Wu, Chang Yao, Zhe Wang

分类: cs.LG, stat.ME

发布日期: 2026-04-15

备注: 13 pages,4 figures, ACL2026-main


💡 一句话要点

提出证据感知自校正强化学习,提升放射报告生成的临床一致性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 放射报告生成 强化学习 证据感知 自校正学习 临床一致性 医学影像 自然语言处理

📋 核心要点

  1. 现有放射报告生成的强化学习方法缺乏证据支持的临床一致性指导,报告级别奖励不足以保证生成报告的临床可靠性。
  2. 提出证据感知自校正强化学习(ESC-RL),通过组别证据感知对齐奖励(GEAR)和自校正偏好学习(SPL)策略,提升报告的临床一致性和准确性。
  3. 在两个胸部X光数据集上进行实验,结果表明ESC-RL能够稳定提升性能,达到当前最优水平,验证了其有效性。

📝 摘要(中文)

本文提出了一种临床对齐的证据感知自校正强化学习(ESC-RL)方法,旨在提升放射报告生成的质量。该方法包含两个关键组成部分:一是组别证据感知对齐奖励(GEAR),它提供组级别的、证据感知的反馈,从而加强真阳性的一致性,恢复假阴性的遗漏发现,并抑制假阳性的无依据内容。二是自校正偏好学习(SPL)策略,它自动地从多个噪声观测中构建可靠的、疾病感知的偏好数据集,并利用大型语言模型(LLM)合成精炼的报告,无需人工监督。ESC-RL促进了临床上忠实的、疾病对齐的奖励,并支持训练期间的持续自我改进。在两个公开的胸部X光数据集上的大量实验表明,该方法能够稳定提升性能,并达到最先进水平。

🔬 方法详解

问题定义:放射报告生成旨在根据医学影像自动生成诊断报告。现有强化学习方法主要依赖报告级别的奖励,缺乏对报告中具体证据的细粒度指导,导致生成的报告可能与影像证据不符,临床一致性较差。此外,现有方法缺乏自我改进机制,难以持续提升报告质量。

核心思路:本文的核心思路是通过引入证据感知的奖励函数和自校正的偏好学习机制,来解决现有方法的不足。证据感知的奖励函数能够针对报告中的每个发现提供更细粒度的反馈,鼓励生成与影像证据一致的报告。自校正的偏好学习机制则能够从多个噪声观测中学习到更可靠的偏好,并利用大型语言模型生成更精炼的报告。

技术框架:ESC-RL包含两个主要模块:GEAR(Group-wise Evidence-aware Alignment Reward)和SPL(Self-correcting Preference Learning)。GEAR模块负责生成证据感知的奖励信号,SPL模块负责从噪声数据中学习偏好并生成高质量报告。整个训练流程是强化学习框架,智能体根据当前策略生成报告,GEAR模块计算奖励,SPL模块提供额外的偏好学习信号,共同指导智能体学习。

关键创新:最重要的技术创新点在于GEAR模块和SPL模块的结合。GEAR模块通过组级别的证据感知对齐,能够更准确地评估报告的质量。SPL模块则通过自校正的偏好学习,能够从噪声数据中学习到更可靠的偏好,并利用大型语言模型生成更精炼的报告。这种结合使得ESC-RL能够生成更符合临床需求的放射报告。

关键设计:GEAR模块的关键设计在于如何定义组级别的证据感知对齐奖励。具体来说,GEAR模块会根据报告中的每个发现,将其与影像证据进行比对,并根据比对结果给出相应的奖励。SPL模块的关键设计在于如何从噪声数据中学习偏好。具体来说,SPL模块会利用多个噪声观测构建一个偏好数据集,并利用大型语言模型对该数据集进行精炼,从而得到更可靠的偏好。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ESC-RL在两个公开的胸部X光数据集上均取得了显著的性能提升,达到了最先进水平。相较于现有方法,ESC-RL能够生成更符合临床需求的放射报告,具有更高的临床一致性和准确性。具体性能数据在论文中有详细展示,证明了该方法的有效性。

🎯 应用场景

该研究成果可应用于医疗影像辅助诊断领域,帮助医生快速生成高质量的放射报告,提高诊断效率和准确性。通过自动生成报告,可以减轻医生的工作负担,并为缺乏经验的医生提供参考。未来,该技术有望推广到其他医学影像领域,例如CT、MRI等。

📄 摘要(原文)

Recent reinforcement learning (RL) approaches have advanced radiology report generation (RRG), yet two core limitations persist: (1) report-level rewards offer limited evidence-grounded guidance for clinical faithfulness; and (2) current methods lack an explicit self-improving mechanism to align with clinical preference. We introduce clinically aligned Evidence-aware Self-Correcting Reinforcement Learning (ESC-RL), comprising two key components. First, a Group-wise Evidence-aware Alignment Reward (GEAR) delivers group-wise, evidence-aware feedback. GEAR reinforces consistent grounding for true positives, recovers missed findings for false negatives, and suppresses unsupported content for false positives. Second, a Self-correcting Preference Learning (SPL) strategy automatically constructs a reliable, disease-aware preference dataset from multiple noisy observations and leverages an LLM to synthesize refined reports without human supervision. ESC-RL promotes clinically faithful, disease-aligned reward and supports continual self-improvement during training. Extensive experiments on two public chest X-ray datasets demonstrate consistent gains and state-of-the-art performance.