A Survey on Large Language Models from General Purpose to Medical Applications: Datasets, Methodologies, and Evaluations

作者: Jinqiang Wang, Huansheng Ning, Yi Peng, Qikai Wei, Daniel Tesfai, Wenwei Mao, Tao Zhu, Runhe Huang

分类: cs.CL, cs.AI

发布日期: 2024-06-14 (更新: 2024-09-23)

备注: 25 pages,4 figures

💡 一句话要点

综述：面向医疗应用的大语言模型，聚焦数据集、方法和评估

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 医疗应用 持续训练 数据集构建 评估基准

📋 核心要点

现有医疗LLM训练成本高昂，且API方案存在隐私风险，限制了其广泛应用。
本综述聚焦于基于开源通用LLM进行持续训练，以降低成本并保护患者隐私。
文章系统性地总结了医疗LLM训练的各个环节，包括数据集构建、训练范式选择和评估基准。

📝 摘要（中文）

大语言模型（LLMs）在各种自然语言处理任务中表现出惊人的性能。最近，通过领域知识增强的医疗LLMs在医疗咨询和诊断方面表现出卓越的能力。这些模型可以流畅地模拟医患对话并提供专业的医疗建议。大多数医疗LLMs是通过对开源通用LLMs进行持续训练而开发的，这比从头开始训练LLMs所需的计算资源要少得多。此外，与基于API的解决方案相比，这种方法可以更好地保护患者隐私。鉴于上述优势，本综述系统地总结了如何从更细粒度的角度基于开源通用LLMs训练医疗LLMs。它涵盖了（a）如何获取训练语料库并构建定制的医疗训练集，（b）如何选择合适的训练范式，（c）如何选择合适的评估基准，以及（d）现有挑战和有希望的研究方向。本综述可以为专注于各种医疗应用（如医学教育、诊断计划和临床助手）的LLMs的开发提供指导。相关的资源和补充信息可以在GitHub存储库中找到。

🔬 方法详解

问题定义：现有医疗大语言模型的训练面临两个主要痛点：一是训练成本高昂，从头开始训练需要大量的计算资源；二是基于API的解决方案存在患者隐私泄露的风险。因此，如何以更经济高效且安全的方式构建医疗大语言模型是一个亟待解决的问题。

核心思路：本综述的核心思路是利用开源的通用大语言模型作为基础，通过持续训练（continued training）的方式，将领域知识注入到模型中，从而构建医疗大语言模型。这种方法可以显著降低训练成本，并且由于模型部署在本地，可以更好地保护患者隐私。

技术框架：本综述没有提出新的技术框架，而是对现有技术进行了系统性的梳理和总结。其框架主要包括以下几个方面：1) 数据集构建：如何获取和构建用于医疗大语言模型训练的语料库，包括医学文本、医患对话等；2) 训练范式选择：选择合适的训练方法，例如持续训练、微调等；3) 评估基准选择：选择合适的评估指标和数据集来评估医疗大语言模型的性能。

关键创新：本综述的创新之处在于其系统性和全面性。它没有提出新的算法或模型，而是对现有技术进行了深入的分析和总结，为研究人员提供了一个全面的指南，帮助他们更好地理解和应用医疗大语言模型。

关键设计：本综述没有涉及具体的模型设计或参数设置。它主要关注的是如何选择合适的数据集、训练范式和评估基准，以及如何解决医疗大语言模型训练过程中面临的挑战。

🖼️ 关键图片

📊 实验亮点

本综述系统地总结了医疗LLM的训练方法，涵盖了数据集构建、训练范式选择和评估基准等关键环节。它为研究人员提供了一个全面的指南，帮助他们更好地理解和应用医疗LLM。此外，该综述还讨论了现有挑战和有希望的研究方向，为未来的研究提供了思路。

🎯 应用场景

该研究成果为医疗领域的多种应用提供了基础，包括医学教育、辅助诊断、临床助手等。通过构建专业的医疗LLM，可以为医生提供更准确的诊断建议，为患者提供更便捷的医疗咨询，从而提高医疗服务的质量和效率。未来，随着医疗LLM的不断发展，有望在远程医疗、个性化医疗等领域发挥更大的作用。

📄 摘要（原文）

Large Language Models (LLMs) have demonstrated surprising performance across various natural language processing tasks. Recently, medical LLMs enhanced with domain-specific knowledge have exhibited excellent capabilities in medical consultation and diagnosis. These models can smoothly simulate doctor-patient dialogues and provide professional medical advice. Most medical LLMs are developed through continued training of open-source general LLMs, which require significantly fewer computational resources than training LLMs from scratch. Additionally, this approach offers better patient privacy protection than API-based solutions. Given the above advantages, this survey systematically summarizes how to train medical LLMs based on open-source general LLMs from a more fine-grained perspective. It covers (a) how to acquire training corpus and construct customized medical training sets, (b) how to choose an appropriate training paradigm, (c) how to choose a suitable evaluation benchmark, and (d) existing challenges and promising research directions are discussed. This survey can provide guidance for the development of LLMs focused on various medical applications, such as medical education, diagnostic planning, and clinical assistants. Related resources and supplemental information can be found on the GitHub repository.

A Survey on Large Language Models from General Purpose to Medical Applications: Datasets, Methodologies, and Evaluations

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理