Eliciting Medical Reasoning with Knowledge-enhanced Data Synthesis: A Semi-Supervised Reinforcement Learning Approach

📄 arXiv: 2604.11547v1 📥 PDF

作者: Haolin Li, Shuyang Jiang, Ruipeng Zhang, Jiangchao Yao, Ya Zhang, Yanfeng Wang

分类: cs.LG, cs.CL

发布日期: 2026-04-13

备注: Accepted to ACL 2026 as a Findings paper

🔗 代码/项目: GITHUB


💡 一句话要点

提出MedSSR框架,利用知识增强数据合成和半监督强化学习提升医疗推理能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 医疗推理 知识增强 数据合成 半监督学习 强化学习 罕见疾病 大型语言模型

📋 核心要点

  1. 现有方法依赖昂贵的思维链蒸馏,且在罕见疾病等领域表现不佳,缺乏有效的数据增强手段。
  2. MedSSR利用罕见疾病知识合成可控分布的推理问题,并使用策略模型生成高质量伪标签。
  3. 实验表明,MedSSR在多个医疗基准上超越现有方法,尤其在罕见疾病任务上提升显著。

📝 摘要(中文)

大型语言模型在复杂的医疗应用中展现出潜力,但高质量推理数据的稀缺阻碍了其发展。为了解决这个问题,现有方法通常通过监督微调从大型专有模型中提取思维链推理轨迹,然后进行强化学习(RL)。这些方法在罕见疾病等代表性不足的领域改进有限,并且生成复杂推理链的成本很高。为了有效增强医疗推理,我们提出了MedSSR,一个医疗知识增强的数据合成和半监督强化学习框架。我们的框架首先利用罕见疾病知识来合成分布可控的推理问题。然后,我们利用策略模型本身来生成高质量的伪标签。这实现了一个两阶段的、由内而外的训练范式:在伪标签合成数据上进行自监督RL,然后在人工标注的真实数据上进行监督RL。MedSSR高效地扩展了模型训练,而无需依赖昂贵的轨迹蒸馏。在Qwen和Llama上的大量实验表明,我们的方法在十个医疗基准测试中优于现有方法,在罕见疾病任务上实现了高达+5.93%的增益。我们的代码可在https://github.com/tdlhl/MedSSR获得。

🔬 方法详解

问题定义:现有方法在训练医疗推理大型语言模型时,面临高质量推理数据稀缺的问题,尤其是在罕见疾病等数据量少的领域。传统方法依赖于从大型专有模型中蒸馏思维链,成本高昂且效果有限,难以泛化到未充分表示的领域。因此,如何高效地生成高质量的医疗推理数据,并利用这些数据提升模型在各个领域的推理能力,是亟待解决的问题。

核心思路:MedSSR的核心思路是利用医疗知识合成数据,并结合半监督强化学习,从而在数据量有限的情况下提升模型的推理能力。具体来说,首先利用罕见疾病知识合成分布可控的推理问题,然后使用模型自身生成伪标签,构建自监督学习的数据集。这种方法避免了对昂贵的思维链蒸馏的依赖,并能够针对性地增强模型在特定领域的推理能力。

技术框架:MedSSR框架包含两个主要阶段:1) 基于知识的数据合成和伪标签生成;2) 两阶段强化学习训练。在第一阶段,利用罕见疾病知识库,生成一系列推理问题,并使用当前策略模型生成伪标签。在第二阶段,首先在合成数据上进行自监督强化学习,提升模型在特定领域的推理能力;然后,在人工标注的真实数据上进行监督强化学习,进一步提升模型的泛化能力。

关键创新:MedSSR的关键创新在于:1) 提出了一种基于知识的数据合成方法,能够生成分布可控的推理问题,有效解决了数据稀缺问题;2) 提出了一种两阶段的半监督强化学习框架,能够充分利用合成数据和真实数据,提升模型的推理能力,避免了对昂贵的思维链蒸馏的依赖。

关键设计:在数据合成阶段,需要设计合适的知识表示和推理规则,以保证生成的问题具有一定的难度和多样性。在伪标签生成阶段,需要选择合适的策略模型和奖励函数,以保证生成的伪标签具有一定的质量。在强化学习训练阶段,需要平衡合成数据和真实数据之间的比例,以及选择合适的学习率和优化器。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MedSSR在Qwen和Llama等大型语言模型上进行了广泛的实验,并在十个医疗基准测试中取得了显著的提升。尤其是在罕见疾病任务上,MedSSR相比现有方法实现了高达+5.93%的增益,证明了其在解决数据稀缺问题上的有效性。实验结果表明,MedSSR能够有效提升模型在各个领域的推理能力,并具有良好的泛化性能。

🎯 应用场景

MedSSR框架可应用于医疗诊断辅助、药物研发、个性化治疗方案推荐等领域。通过提升模型在罕见疾病等领域的推理能力,可以帮助医生更准确地诊断疾病,为患者提供更有效的治疗方案。此外,该框架还可以用于构建医疗知识图谱,促进医疗知识的共享和传播,最终提升医疗服务的质量和效率。

📄 摘要(原文)

While large language models hold promise for complex medical applications, their development is hindered by the scarcity of high-quality reasoning data. To address this issue, existing approaches typically distill chain-of-thought reasoning traces from large proprietary models via supervised fine-tuning, then conduct reinforcement learning (RL). These methods exhibit limited improvement on underrepresented domains like rare diseases while incurring substantial costs from generating complex reasoning chains. To efficiently enhance medical reasoning, we propose MedSSR, a Medical Knowledge-enhanced data Synthesis and Semi-supervised Reinforcement learning framework. Our framework first employs rare disease knowledge to synthesize distribution-controllable reasoning questions. We then utilize the policy model itself to generate high-quality pseudo-labels. This enables a two-stage, intrinsic-to-extrinsic training paradigm: self-supervised RL on the pseudo-labeled synthetic data, followed by supervised RL on the human-annotated real data. MedSSR scales model training efficiently without relying on costly trace distillation. Extensive experiments on Qwen and Llama demonstrate that our method outperforms existing methods across ten medical benchmarks, achieving up to +5.93% gain on rare-disease tasks. Our code is available at https://github.com/tdlhl/MedSSR.