Reinforcement Learning Improves LLM Accuracy and Reasoning in Disease Classification from Radiology Reports

作者: Yishu Wei, Yi Lin, Adam Flanders, George Shih, Yifan Peng

分类: cs.AI

发布日期: 2026-04-21

💡 一句话要点

利用强化学习提升LLM在放射报告疾病分类中的准确性和推理能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 放射报告分析 疾病分类 大型语言模型 强化学习 监督微调 临床决策支持 自然语言处理

📋 核心要点

现有方法在放射报告疾病分类中，监督微调虽然提升了准确率，但可能损害LLM的推理能力。
论文提出两阶段方法，先用监督微调优化疾病标签，再用GRPO在无推理监督下提升准确率和格式。
实验表明，该方法在三个数据集上，相较于基线方法，显著提升了疾病分类的准确率和推理能力。

📝 摘要（中文）

从放射报告中准确地进行疾病分类对许多应用至关重要。虽然轻量级LLM的监督微调(SFT)可以提高准确性，但可能会降低推理能力。我们提出了一种两阶段方法：首先在疾病标签上进行SFT，然后使用Group Relative Policy Optimization (GRPO)来优化准确性和格式，从而改进预测，而无需推理监督。在三个放射科医生注释的数据集上，SFT优于基线方法，GRPO进一步提高了分类性能，并增强了推理的召回率和全面性。

🔬 方法详解

问题定义：论文旨在解决从放射报告中准确分类疾病的问题。现有方法，特别是基于监督微调（SFT）的方法，虽然可以提高分类准确率，但往往会牺牲LLM的推理能力，导致模型在理解和解释报告内容方面表现不佳。因此，如何在提高分类准确率的同时，保持甚至提升LLM的推理能力，是本研究要解决的核心问题。

核心思路：论文的核心思路是采用一个两阶段的训练策略。首先，使用监督微调（SFT）在疾病标签上训练LLM，使其初步具备疾病分类的能力。然后，利用Group Relative Policy Optimization (GRPO) 强化学习方法，在没有推理监督的情况下，进一步优化模型的预测结果，同时提升其推理能力。GRPO通过优化模型输出的准确性和格式，间接提升了模型的推理能力。

技术框架：整体框架包含两个主要阶段：1) 监督微调（SFT）：使用放射报告和对应的疾病标签对轻量级LLM进行微调，使其初步学习疾病分类任务。2) Group Relative Policy Optimization (GRPO)：使用强化学习方法，基于SFT模型，进一步优化模型的预测结果。GRPO的目标是最大化奖励函数，该奖励函数基于预测的准确性和格式。

关键创新：论文的关键创新在于使用Group Relative Policy Optimization (GRPO) 来提升LLM的推理能力，而无需直接的推理监督。GRPO通过优化模型输出的准确性和格式，间接提升了模型的推理能力。这种方法避免了对推理过程进行显式建模的复杂性，同时能够有效地提升模型的性能。

关键设计：GRPO 的具体实现细节包括：奖励函数的设计，该函数需要能够准确地反映预测的准确性和格式；策略梯度算法的选择，用于优化LLM的策略；以及分组策略的设计，用于将相似的放射报告分组，从而更好地进行策略优化。具体的参数设置和网络结构细节在论文中应该有更详细的描述（未知）。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在三个放射科医生注释的数据集上，经过监督微调（SFT）的LLM优于基线方法。进一步应用Group Relative Policy Optimization (GRPO) 后，分类性能得到显著提升，同时推理的召回率和全面性也得到了增强。具体的性能提升幅度需要在论文中查找（未知）。

🎯 应用场景

该研究成果可应用于临床决策支持系统，辅助医生进行疾病诊断，提高诊断效率和准确性。此外，该技术还可用于大规模放射报告的自动分析，为流行病学研究和医疗资源分配提供数据支持。未来，该方法有望推广到其他医学文本分析任务，例如病理报告分析和电子病历分析，具有广阔的应用前景。

📄 摘要（原文）

Accurate disease classification from radiology reports is essential for many applications. While supervised fine-tuning (SFT) of lightweight LLMs improves accuracy, it can degrade reasoning. We propose a two-stage approach: SFT on disease labels followed by Group Relative Policy Optimization (GRPO) to refine predictions by optimizing accuracy and format without reasoning supervision. Across three radiologist-annotated datasets, SFT outperformed baselines and GRPO further improved classification and enhanced reasoning recall and comprehensiveness.

Reinforcement Learning Improves LLM Accuracy and Reasoning in Disease Classification from Radiology Reports

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理