Reinforcement Learning Improves LLM Accuracy and Reasoning in Disease Classification from Radiology Reports
作者: Yishu Wei, Yi Lin, Adam Flanders, George Shih, Yifan Peng
分类: cs.AI
发布日期: 2026-04-21
💡 一句话要点
利用强化学习提升LLM在放射报告疾病分类中的准确性和推理能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 放射报告分析 疾病分类 大型语言模型 强化学习 监督微调 临床决策支持 自然语言处理
📋 核心要点
- 现有方法在放射报告疾病分类中,监督微调虽然提升了准确率,但可能损害LLM的推理能力。
- 论文提出两阶段方法,先用监督微调优化疾病标签,再用GRPO在无推理监督下提升准确率和格式。
- 实验表明,该方法在三个数据集上,相较于基线方法,显著提升了疾病分类的准确率和推理能力。
📝 摘要(中文)
从放射报告中准确地进行疾病分类对许多应用至关重要。虽然轻量级LLM的监督微调(SFT)可以提高准确性,但可能会降低推理能力。我们提出了一种两阶段方法:首先在疾病标签上进行SFT,然后使用Group Relative Policy Optimization (GRPO)来优化准确性和格式,从而改进预测,而无需推理监督。在三个放射科医生注释的数据集上,SFT优于基线方法,GRPO进一步提高了分类性能,并增强了推理的召回率和全面性。
🔬 方法详解
问题定义:论文旨在解决从放射报告中准确分类疾病的问题。现有方法,特别是基于监督微调(SFT)的方法,虽然可以提高分类准确率,但往往会牺牲LLM的推理能力,导致模型在理解和解释报告内容方面表现不佳。因此,如何在提高分类准确率的同时,保持甚至提升LLM的推理能力,是本研究要解决的核心问题。
核心思路:论文的核心思路是采用一个两阶段的训练策略。首先,使用监督微调(SFT)在疾病标签上训练LLM,使其初步具备疾病分类的能力。然后,利用Group Relative Policy Optimization (GRPO) 强化学习方法,在没有推理监督的情况下,进一步优化模型的预测结果,同时提升其推理能力。GRPO通过优化模型输出的准确性和格式,间接提升了模型的推理能力。
技术框架:整体框架包含两个主要阶段:1) 监督微调(SFT):使用放射报告和对应的疾病标签对轻量级LLM进行微调,使其初步学习疾病分类任务。2) Group Relative Policy Optimization (GRPO):使用强化学习方法,基于SFT模型,进一步优化模型的预测结果。GRPO的目标是最大化奖励函数,该奖励函数基于预测的准确性和格式。
关键创新:论文的关键创新在于使用Group Relative Policy Optimization (GRPO) 来提升LLM的推理能力,而无需直接的推理监督。GRPO通过优化模型输出的准确性和格式,间接提升了模型的推理能力。这种方法避免了对推理过程进行显式建模的复杂性,同时能够有效地提升模型的性能。
关键设计:GRPO 的具体实现细节包括:奖励函数的设计,该函数需要能够准确地反映预测的准确性和格式;策略梯度算法的选择,用于优化LLM的策略;以及分组策略的设计,用于将相似的放射报告分组,从而更好地进行策略优化。具体的参数设置和网络结构细节在论文中应该有更详细的描述(未知)。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在三个放射科医生注释的数据集上,经过监督微调(SFT)的LLM优于基线方法。进一步应用Group Relative Policy Optimization (GRPO) 后,分类性能得到显著提升,同时推理的召回率和全面性也得到了增强。具体的性能提升幅度需要在论文中查找(未知)。
🎯 应用场景
该研究成果可应用于临床决策支持系统,辅助医生进行疾病诊断,提高诊断效率和准确性。此外,该技术还可用于大规模放射报告的自动分析,为流行病学研究和医疗资源分配提供数据支持。未来,该方法有望推广到其他医学文本分析任务,例如病理报告分析和电子病历分析,具有广阔的应用前景。
📄 摘要(原文)
Accurate disease classification from radiology reports is essential for many applications. While supervised fine-tuning (SFT) of lightweight LLMs improves accuracy, it can degrade reasoning. We propose a two-stage approach: SFT on disease labels followed by Group Relative Policy Optimization (GRPO) to refine predictions by optimizing accuracy and format without reasoning supervision. Across three radiologist-annotated datasets, SFT outperformed baselines and GRPO further improved classification and enhanced reasoning recall and comprehensiveness.