CollectiveSFT: Scaling Large Language Models for Chinese Medical Benchmark with Collective Instructions in Healthcare

作者: Jingwei Zhu, Minghuan Tan, Min Yang, Ruixue Li, Hamid Alinejad-Rokny

分类: cs.CL, cs.AI

发布日期: 2024-07-29 (更新: 2024-09-28)

备注: Technical Report

🔗 代码/项目: GITHUB

💡 一句话要点

CollectiveSFT：通过医疗领域集体指令微调，提升中文医疗基准下大语言模型性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 中文医疗基准 监督式微调 集体指令 医疗领域 数据增强 模型泛化

📋 核心要点

现有大语言模型在中文医疗基准测试中，数据集多样性和分布不均是性能瓶颈。
论文提出CollectiveSFT方法，通过整合医疗领域集体指令，提升模型泛化能力。
实验表明，该方法能使较小模型达到与较大模型相当的性能，强调数据集质量的重要性。

📝 摘要（中文）

大语言模型（LLMs）的快速发展催生了大量用于评估其能力的基准。本研究聚焦于中文综合医疗基准（CMB），展示了监督式微调（SFT）中数据集的多样性和分布如何提升LLM的性能。值得注意的是，我们成功地训练了一个较小的基础模型，使其获得了与较大模型相当的分数，这表明多样化且分布良好的数据集可以优化性能，而与模型大小无关。这项研究表明，即使是较小的模型也可以通过精心策划和多样化的数据集达到较高的性能水平。通过整合广泛的指令内容，我们的方法解决了潜在的数据质量不一致等问题。我们的结果表明，更广泛的训练数据可以提高模型在不同医疗场景中泛化和有效执行的能力，突出了数据集质量和多样性在微调过程中的重要性。我们开源了该模型，以供未来研究使用，地址为https://github.com/CAS-SIAT-XinHai/CollectiveSFT。

🔬 方法详解

问题定义：现有大语言模型在中文医疗领域的应用面临挑战，主要痛点在于模型在特定数据集上表现良好，但在面对多样化的医疗场景时泛化能力不足。数据集质量参差不齐，指令不明确，导致模型难以有效学习和应用。

核心思路：论文的核心思路是通过构建一个高质量、多样化的医疗指令数据集，并利用该数据集对模型进行监督式微调（SFT）。通过整合来自不同来源的医疗指令，增加数据集的覆盖范围和多样性，从而提高模型在各种医疗场景下的泛化能力。这种方法旨在解决数据质量不一致和指令不明确的问题。

技术框架：CollectiveSFT方法主要包含以下几个阶段：1) 数据收集与清洗：收集来自不同来源的中文医疗指令数据，并进行清洗和预处理，去除噪声和冗余信息。2) 指令整合与增强：将收集到的指令进行整合，并利用数据增强技术生成更多样化的指令数据。3) 模型微调：使用整合后的指令数据集对预训练的大语言模型进行监督式微调。4) 评估与优化：在中文医疗基准（CMB）上评估微调后的模型性能，并根据评估结果进行优化。

关键创新：该方法最重要的技术创新点在于其对医疗指令数据的集体整合和增强。与以往的研究相比，CollectiveSFT更加注重数据集的多样性和质量，通过整合来自不同来源的指令，构建了一个更全面、更具代表性的医疗指令数据集。这种方法能够有效提高模型在各种医疗场景下的泛化能力。

关键设计：在数据增强方面，论文可能采用了诸如回译、同义词替换、句子重组等技术，以生成更多样化的指令数据。在模型微调方面，可能采用了诸如LoRA、Adapter等参数高效微调方法，以降低计算成本和存储需求。损失函数可能采用了交叉熵损失函数，并结合了正则化项，以防止过拟合。具体的参数设置和网络结构细节未知。

📊 实验亮点

CollectiveSFT方法成功地训练了一个较小的基础模型，使其在中文综合医疗基准（CMB）上获得了与较大模型相当的分数。这表明，通过精心策划和多样化的数据集，即使是较小的模型也可以达到较高的性能水平。具体的性能提升数据未知。

🎯 应用场景

该研究成果可应用于智能医疗助手、医学知识问答、辅助诊断等领域。通过提升大语言模型在中文医疗领域的性能，可以为医生和患者提供更准确、更便捷的医疗服务。未来，该方法有望推广到其他专业领域，促进人工智能在各行业的应用。

📄 摘要（原文）

The rapid progress in Large Language Models (LLMs) has prompted the creation of numerous benchmarks to evaluate their capabilities.This study focuses on the Comprehensive Medical Benchmark in Chinese (CMB), showcasing how dataset diversity and distribution in supervised fine-tuning (SFT) may enhance LLM performance.Remarkably, We successfully trained a smaller base model to achieve scores comparable to larger models, indicating that a diverse and well-distributed dataset can optimize performance regardless of model size.This study suggests that even smaller models may reach high performance levels with carefully curated and varied datasets. By integrating a wide range of instructional content, our approach addresses potential issues such as data quality inconsistencies. Our results imply that a broader spectrum of training data may enhance a model's ability to generalize and perform effectively across different medical scenarios, highlighting the importance of dataset quality and diversity in fine-tuning processes. We open-source the model for future research at https://github.com/CAS-SIAT-XinHai/CollectiveSFT

CollectiveSFT: Scaling Large Language Models for Chinese Medical Benchmark with Collective Instructions in Healthcare

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理