PediatricsGPT: Large Language Models as Chinese Medical Assistants for Pediatric Applications

📄 arXiv: 2405.19266v4 📥 PDF

作者: Dingkang Yang, Jinjie Wei, Dongling Xiao, Shunli Wang, Tong Wu, Gang Li, Mingcheng Li, Shuaibing Wang, Jiawei Chen, Yue Jiang, Qingyao Xu, Ke Li, Peng Zhai, Lihua Zhang

分类: cs.CL

发布日期: 2024-05-29 (更新: 2024-11-11)

备注: Accepted by NeurIPS 2024. A Technical Report on a Chinese Medical Large Language Model


💡 一句话要点

提出PediatricsGPT,构建中文儿科医疗大语言模型助手,提升诊断效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 儿科医疗 大语言模型 指令学习 数据集构建 医疗助手

📋 核心要点

  1. 现有中文医学大语言模型在儿科应用中表现不佳,缺乏高质量的儿科指令数据和稳健的训练流程。
  2. 提出PediatricsGPT,构建高质量儿科数据集PedCorpus,并设计混合指令预训练、偏好优化等训练流程。
  3. 实验结果表明,PediatricsGPT在儿科下游任务中显著优于现有中文医学大语言模型,提升诊断效率。

📝 摘要(中文)

本文针对中国医疗资源匮乏的现状,提出构建智能儿科咨询系统以提高诊断效率。现有中文医学大语言模型在儿科应用中表现欠佳,原因在于指令数据不足和训练过程脆弱。为解决这些问题,本文构建了PedCorpus,一个高质量的儿科数据集,包含超过30万条来自教科书、指南和知识图谱的多任务指令,以满足多样化的诊断需求。基于PedCorpus,本文提出了PediatricsGPT,首个中文儿科大语言模型助手,并采用系统且稳健的训练流程。通过混合指令预训练、全参数监督微调、偏好优化和混合专家策略等方法,PediatricsGPT在各项儿科下游任务中均优于以往的中文医学大语言模型。模型和数据集将开源。

🔬 方法详解

问题定义:现有中文医学大语言模型在儿科领域的应用效果不佳,主要痛点在于缺乏高质量的儿科领域数据,导致模型无法充分学习儿科相关的专业知识和诊断逻辑。此外,现有的训练流程可能不够稳定,容易受到数据噪声的影响,导致模型泛化能力不足。

核心思路:论文的核心思路是构建一个专门针对儿科领域的大规模高质量数据集,并在此基础上设计一套稳健的训练流程,从而提升模型在儿科诊断任务上的性能。通过数据增强和模型优化,使模型能够更好地理解和处理儿科相关的医疗信息。

技术框架:PediatricsGPT的整体训练框架包含以下几个主要阶段:1) PedCorpus构建:收集和整理儿科教科书、指南和知识图谱等资源,构建包含超过30万条指令的高质量数据集。2) 连续预训练:采用混合指令预训练机制,缓解医学领域知识不一致问题。3) 全参数监督微调 (SFT):利用PedCorpus进行全参数微调,使模型具备通用的医学知识。4) 偏好优化:通过直接偏好优化,使模型生成更人性化的回复。5) 参数高效的二次SFT:采用混合专家策略,平衡通用医学知识和儿科专业知识。

关键创新:论文的关键创新点在于:1) PedCorpus数据集:构建了大规模高质量的中文儿科指令数据集,为模型训练提供了充足的数据支持。2) 混合指令预训练:缓解了医学领域知识不一致问题,提升了模型在医学领域的适应性。3) 混合专家策略:在参数高效的二次SFT阶段,平衡了通用医学知识和儿科专业知识,提升了模型的专业性。

关键设计:在混合指令预训练阶段,具体采用了何种混合策略,各种指令的比例如何设置,以及如何缓解知识不一致问题,论文中可能包含更详细的描述。在混合专家策略中,如何选择和组合不同的专家模型,以及如何进行参数调整,也是关键的设计细节。损失函数和网络结构等细节未在摘要中体现,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PediatricsGPT在儿科下游任务中始终优于以往的中文医学大语言模型。通过GPT-4和医生评估,证明了PediatricsGPT在诊断准确性和回复质量方面的优势。具体的性能数据和提升幅度需要在论文中查找。

🎯 应用场景

PediatricsGPT可应用于智能儿科咨询系统,辅助医生进行诊断,尤其是在医疗资源匮乏地区,能够提高诊断效率,缓解医疗压力。未来,该模型可扩展到其他医学领域,构建更全面的智能医疗助手,提升医疗服务的可及性和质量。

📄 摘要(原文)

Developing intelligent pediatric consultation systems offers promising prospects for improving diagnostic efficiency, especially in China, where healthcare resources are scarce. Despite recent advances in Large Language Models (LLMs) for Chinese medicine, their performance is sub-optimal in pediatric applications due to inadequate instruction data and vulnerable training procedures. To address the above issues, this paper builds PedCorpus, a high-quality dataset of over 300,000 multi-task instructions from pediatric textbooks, guidelines, and knowledge graph resources to fulfil diverse diagnostic demands. Upon well-designed PedCorpus, we propose PediatricsGPT, the first Chinese pediatric LLM assistant built on a systematic and robust training pipeline. In the continuous pre-training phase, we introduce a hybrid instruction pre-training mechanism to mitigate the internal-injected knowledge inconsistency of LLMs for medical domain adaptation. Immediately, the full-parameter Supervised Fine-Tuning (SFT) is utilized to incorporate the general medical knowledge schema into the models. After that, we devise a direct following preference optimization to enhance the generation of pediatrician-like humanistic responses. In the parameter-efficient secondary SFT phase, a mixture of universal-specific experts strategy is presented to resolve the competency conflict between medical generalist and pediatric expertise mastery. Extensive results based on the metrics, GPT-4, and doctor evaluations on distinct doctor downstream tasks show that PediatricsGPT consistently outperforms previous Chinese medical LLMs. Our model and dataset will be open-source for community development.