ChiMed 2.0: Advancing Chinese Medical Dataset in Facilitating Large Language Modeling
作者: Yuanhe Tian, Junjie Liu, Zhizhou Kou, Yuxiang Li, Yan Song
分类: cs.CL
发布日期: 2025-07-21
💡 一句话要点
ChiMed 2.0:构建大规模中文医疗数据集,促进大型语言模型发展
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 中文医疗数据集 大型语言模型 预训练 监督微调 强化学习 医疗AI 自然语言处理
📋 核心要点
- 现有中文医疗数据集规模有限,领域覆盖范围窄,难以满足有效预训练所需的多样化语料库需求。
- ChiMed 2.0旨在构建一个大规模、高质量的中文医疗数据集,支持预训练、监督微调和基于人类反馈的强化学习。
- 实验结果表明,使用ChiMed 2.0进行训练可以有效提升不同规模LLM在医疗基准数据集上的性能。
📝 摘要(中文)
本文提出了一个名为ChiMed 2.0的中文医疗数据集,该数据集扩展了先前的ChiMed工作,涵盖了从中文医疗在线平台收集的数据以及由大型语言模型生成的数据。ChiMed 2.0包含2.044亿个汉字,覆盖了传统中医经典和现代通用医学数据,其中包含16.48万篇用于预训练的文档,35.16万个用于监督微调(SFT)的问答对,以及4.17万个用于基于人类反馈的强化学习(RLHF)的偏好数据元组。为了验证该方法在训练中文医疗LLM方面的有效性,我们在具有代表性的通用领域LLM上进行了进一步的预训练、SFT和RLHF实验,并评估了它们在医疗基准数据集上的性能。结果表明,不同模型规模都获得了性能提升,验证了数据集的有效性和适用性。
🔬 方法详解
问题定义:现有中文医疗数据集在规模和覆盖范围上存在局限性,无法充分支持大型语言模型的预训练和微调,尤其缺乏支持RLHF的数据。这阻碍了中文医疗领域AI应用的进一步发展。
核心思路:通过整合来自在线医疗平台的数据以及利用LLM生成的数据,构建一个更大规模、更多样化的中文医疗数据集。该数据集不仅包含用于预训练的文本数据,还包括用于监督微调的问答对以及用于RLHF的偏好数据,从而全面支持LLM的训练。
技术框架:ChiMed 2.0数据集的构建主要包括数据收集和数据生成两个阶段。数据收集阶段从中文医疗在线平台抓取相关文本数据,数据生成阶段则利用LLM生成问答对和偏好数据。随后,利用该数据集对通用领域的LLM进行预训练、监督微调和RLHF。
关键创新:ChiMed 2.0的关键创新在于其数据集的全面性,它不仅包含用于预训练的文本数据,还包括用于监督微调的问答对以及用于RLHF的偏好数据。这使得该数据集能够支持LLM的完整训练流程,从而提升模型在中文医疗领域的性能。
关键设计:在数据生成阶段,采用了特定的prompt工程技术来引导LLM生成高质量的问答对和偏好数据。在RLHF阶段,设计了合适的奖励模型来评估LLM生成的回答质量,并利用强化学习算法来优化LLM的策略。
🖼️ 关键图片
📊 实验亮点
通过在通用领域LLM上进行预训练、SFT和RLHF实验,结果表明,使用ChiMed 2.0进行训练可以有效提升模型在医疗基准数据集上的性能。具体而言,不同模型规模都获得了性能提升,验证了数据集的有效性和适用性。这表明ChiMed 2.0是一个有价值的中文医疗数据集,可以促进中文医疗AI技术的发展。
🎯 应用场景
ChiMed 2.0数据集可用于训练中文医疗领域的LLM,从而支持智能问诊、医学知识检索、辅助诊断等应用。该数据集的发布将促进中文医疗AI技术的发展,提升医疗服务的效率和质量,并为患者提供更便捷的医疗服务。
📄 摘要(原文)
Building high-quality data resources is crucial for advancing artificial intelligence research and applications in specific domains, particularly in the Chinese medical domain. Existing Chinese medical datasets are limited in size and narrow in domain coverage, falling short of the diverse corpora required for effective pre-training. Moreover, most datasets are designed solely for LLM fine-tuning and do not support pre-training and reinforcement learning from human feedback (RLHF). In this paper, we propose a Chinese medical dataset named ChiMed 2.0, which extends our previous work ChiMed, and covers data collected from Chinese medical online platforms and generated by LLMs. ChiMed 2.0 contains 204.4M Chinese characters covering both traditional Chinese medicine classics and modern general medical data, where there are 164.8K documents for pre-training, 351.6K question-answering pairs for supervised fine-tuning (SFT), and 41.7K preference data tuples for RLHF. To validate the effectiveness of our approach for training a Chinese medical LLM, we conduct further pre-training, SFT, and RLHF experiments on representative general domain LLMs and evaluate their performance on medical benchmark datasets. The results show performance gains across different model scales, validating the dataset's effectiveness and applicability.