Toward Global Large Language Models in Medicine

📄 arXiv: 2601.02186v1 📥 PDF

作者: Rui Yang, Huitao Li, Weihao Xuan, Heli Qi, Xin Li, Kunyu Yu, Yingjian Chen, Rongrong Wang, Jacques Behmoaras, Tianxi Cai, Bibhas Chakraborty, Qingyu Chen, Lionel Tim-Ee Cheng, Marie-Louise Damwanza, Chido Dzinotyiwei, Aosong Feng, Chuan Hong, Yusuke Iwasawa, Yuhe Ke, Linah Kitala, Taehoon Ko, Jisan Lee, Irene Li, Jonathan Chong Kai Liew, Hongfang Liu, Lian Leng Low, Edison Marrese-Taylor, Yutaka Matsuo, Isheanesu Misi, Yilin Ning, Jasmine Chiat Ling Ong, Marcus Eng Hock Ong, Enrico Petretto, Hossein Rouhizadeh, Abiram Sandralegar, Oren Schreier, Iain Bee Huat Tan, Patrick Tan, Daniel Shu Wei Ting, Junjue Wang, Chunhua Weng, Matthew Yu Heng Wong, Fang Wu, Yunze Xiao, Xuhai Xu, Qingcheng Zeng, Zhuo Zheng, Yifan Peng, Douglas Teodoro, Nan Liu

分类: cs.CL

发布日期: 2026-01-05

备注: 182 pages, 65 figures


💡 一句话要点

构建GlobMed多语言医学数据集与LLM,提升低资源语言医疗场景性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语言医学 大型语言模型 低资源语言 医疗信息处理 数据集构建

📋 核心要点

  1. 现有LLM主要针对高资源语言,在低资源语言医疗场景中表现不足,限制了其全球应用。
  2. 论文构建了GlobMed数据集和GlobMed-LLMs模型,旨在提升LLM在多语言医学任务,特别是低资源语言上的性能。
  3. 实验表明,GlobMed-LLMs相比基线模型,平均性能提升超过40%,低资源语言性能提升超过三倍。

📝 摘要(中文)

尽管医疗技术不断进步,但全球医疗资源的分配仍然不均。大型语言模型(LLM)的发展改变了医学领域,并有望提高医疗质量和扩大全球医疗信息的获取。然而,现有的LLM主要在高资源语言上训练,限制了其在全球医疗场景中的适用性。为了解决这个问题,我们构建了GlobMed,一个大型多语言医学数据集,包含超过50万条数据,涵盖12种语言,包括四种低资源语言。在此基础上,我们建立了GlobMed-Bench,系统地评估了56个最先进的专有和开源LLM在多个多语言医学任务中的表现,揭示了不同语言之间的显著性能差异,特别是对于低资源语言。此外,我们推出了GlobMed-LLMs,一套基于GlobMed训练的多语言医学LLM,参数范围从17亿到80亿。GlobMed-LLMs相对于基线模型平均性能提高了40%以上,低资源语言的性能提高了三倍以上。这些资源共同为在全球范围内公平发展和应用LLM奠定了重要基础,使更广泛的语言社区能够从技术进步中受益。

🔬 方法详解

问题定义:现有的大型语言模型(LLMs)主要针对高资源语言进行训练,导致其在低资源语言的医疗场景中表现不佳。这限制了LLMs在全球医疗领域的应用,加剧了医疗资源分配不均的问题。因此,需要构建能够有效处理多语言,特别是低资源语言的医学LLMs。

核心思路:论文的核心思路是构建一个包含多种语言,特别是低资源语言的大型医学数据集(GlobMed),并在此基础上训练一系列多语言医学LLMs(GlobMed-LLMs)。通过在包含低资源语言的数据集上进行训练,提高模型在这些语言上的性能,从而实现更公平的全球医疗信息获取。

技术框架:该研究的技术框架主要包含三个部分:1) 构建GlobMed数据集,包含12种语言的医学文本数据;2) 建立GlobMed-Bench,用于评估现有LLMs在多语言医学任务上的性能;3) 训练GlobMed-LLMs,一套基于GlobMed数据集的多语言医学LLMs。评估过程使用GlobMed-Bench,训练过程使用标准的LLM训练方法。

关键创新:该研究的关键创新在于构建了GlobMed数据集,该数据集包含了相对较多的低资源语言医学文本数据,这使得训练能够有效处理这些语言的LLMs成为可能。此外,GlobMed-Bench提供了一个系统评估多语言医学LLMs性能的平台。

关键设计:GlobMed数据集包含了超过50万条数据,涵盖12种语言。GlobMed-LLMs的参数范围从1.7B到8B。论文没有详细说明具体的损失函数或网络结构,但提到使用了标准的LLM训练方法。数据集的构建和清洗过程是关键,确保数据的质量和多样性。

📊 实验亮点

GlobMed-LLMs在多语言医学任务中取得了显著的性能提升,相对于基线模型平均性能提高了40%以上。更重要的是,在低资源语言上的性能提升超过三倍,表明该方法在解决低资源语言医疗信息处理方面具有显著优势。GlobMed-Bench的评估结果也揭示了现有LLM在不同语言上的性能差异。

🎯 应用场景

该研究成果可应用于开发多语言医疗信息系统,为不同语言背景的患者和医护人员提供医疗咨询、诊断支持和健康教育。尤其对于缺乏医疗资源的地区,可以利用低资源语言的LLM,实现更便捷的医疗服务,缩小医疗差距,促进全球医疗公平。

📄 摘要(原文)

Despite continuous advances in medical technology, the global distribution of health care resources remains uneven. The development of large language models (LLMs) has transformed the landscape of medicine and holds promise for improving health care quality and expanding access to medical information globally. However, existing LLMs are primarily trained on high-resource languages, limiting their applicability in global medical scenarios. To address this gap, we constructed GlobMed, a large multilingual medical dataset, containing over 500,000 entries spanning 12 languages, including four low-resource languages. Building on this, we established GlobMed-Bench, which systematically assesses 56 state-of-the-art proprietary and open-weight LLMs across multiple multilingual medical tasks, revealing significant performance disparities across languages, particularly for low-resource languages. Additionally, we introduced GlobMed-LLMs, a suite of multilingual medical LLMs trained on GlobMed, with parameters ranging from 1.7B to 8B. GlobMed-LLMs achieved an average performance improvement of over 40% relative to baseline models, with a more than threefold increase in performance on low-resource languages. Together, these resources provide an important foundation for advancing the equitable development and application of LLMs globally, enabling broader language communities to benefit from technological advances.