Development and bilingual evaluation of Japanese medical large language model within reasonably low computational resources

📄 arXiv: 2409.11783v2 📥 PDF

作者: Issey Sukeda

分类: cs.CL

发布日期: 2024-09-18 (更新: 2024-09-20)

备注: 18 pages, 9 tables

🔗 代码/项目: GITHUB


💡 一句话要点

提出一种低资源日语医疗大语言模型,性能媲美十倍参数量级模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 医疗大语言模型 低资源计算 日语处理 跨语言知识迁移 医疗问答 本地部署 7B模型

📋 核心要点

  1. 现有高质量开源大语言模型参数量巨大,对GPU资源要求高,限制了其在医疗机构本地部署和应用。
  2. 该研究提出了一种基于7B参数模型的医疗领域自适应LLM,旨在降低计算资源需求,实现低成本部署。
  3. 实验结果表明,该模型在日语和英语医疗问答任务中,性能可与十倍参数量级的现有医疗LLM媲美。

📝 摘要(中文)

本文提出了一种基于7B参数模型的医疗领域自适应大语言模型,旨在解决医疗行业对本地部署LLM日益增长的需求,以及高质量开源LLM参数量过大带来的GPU资源负担问题。该模型能够在低计算资源下运行,并通过在日语和英语两种语言的医疗问答基准测试中进行评估,结果表明其性能与现有参数量大十倍的医疗LLM相当甚至超越。研究发现,在以英语为中心的基模型上微调日语医疗数据集,可以提高两种语言的得分,验证了跨语言知识迁移的有效性。该研究旨在缓解经济负担,为临床机构在本地实际应用LLM提供一个跳板。评估代码已开源。

🔬 方法详解

问题定义:医疗领域对本地部署的大语言模型需求日益增长,但现有高质量开源LLM通常具有数百亿参数,需要大量的GPU资源,给医疗机构带来巨大的经济负担。因此,需要开发一种能够在低计算资源下运行,同时保持高性能的医疗LLM。

核心思路:该论文的核心思路是在一个相对较小的基模型(7B参数)的基础上,通过医疗领域的数据进行微调,使其适应医疗领域的知识和任务。同时,利用跨语言知识迁移,通过在日语医疗数据集上微调,提高模型在日语和英语两种语言上的性能。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 选择一个合适的基模型(7B参数);2) 构建日语和英语的医疗领域数据集;3) 在基模型上使用医疗领域数据集进行微调;4) 在医疗问答基准测试中评估模型的性能。

关键创新:该研究的关键创新在于:1) 提出了一种低资源医疗LLM的构建方法,能够在有限的计算资源下实现高性能;2) 验证了跨语言知识迁移在医疗LLM中的有效性,通过在日语数据集上微调,提高了模型在英语上的性能。

关键设计:该研究的关键设计包括:1) 选择以英语为中心的基模型,并进行日语医疗数据集的微调,以实现跨语言知识迁移;2) 使用医疗问答基准测试来评估模型的性能,并与现有医疗LLM进行比较;3) 开源评估代码,方便其他研究者复现和改进。

📊 实验亮点

实验结果表明,该模型在日语和英语医疗问答基准测试中,性能与现有参数量大十倍的医疗LLM相当甚至超越。具体而言,通过在日语医疗数据集上微调以英语为中心的基模型,不仅提高了模型在日语上的性能,也提升了其在英语上的表现,验证了跨语言知识迁移的有效性。

🎯 应用场景

该研究成果可应用于医疗问答、辅助诊断、病历分析等多个领域。通过本地部署低资源医疗LLM,可以降低医疗机构的运营成本,提高工作效率,并保护患者隐私。未来,该模型可以进一步扩展到其他语言和医疗领域,为全球医疗健康事业做出贡献。

📄 摘要(原文)

The recent success of large language models (LLMs) and the scaling law has led to a widespread adoption of larger models. Particularly in the healthcare industry, there is an increasing demand for locally operated LLMs due to security concerns. However, the majority of high quality open-source LLMs have a size of 70B parameters, imposing significant financial burdens on users for GPU preparation and operation. To overcome these issues, we present a medical adaptation based on the recent 7B models, which enables the operation in low computational resources. We compare the performance on medical question-answering benchmarks in two languages (Japanese and English), demonstrating that its scores reach parity with or surpass those of currently existing medical LLMs that are ten times larger. We find that fine-tuning an English-centric base model on Japanese medical dataset improves the score in both language, supporting the effect of cross-lingual knowledge transfer. We hope that this study will alleviate financial challenges, serving as a stepping stone for clinical institutions to practically utilize LLMs locally. Our evaluation code is available at https://github.com/stardust-coder/japanese-lm-med-harness.