BioMistral-NLU: Towards More Generalizable Medical Language Understanding through Instruction Tuning
作者: Yujuan Velvin Fu, Giridhar Kaushik Ramachandran, Namu Park, Kevin Lybarger, Fei Xia, Ozlem Uzuner, Meliha Yetisgen
分类: cs.CL
发布日期: 2024-10-24 (更新: 2025-03-09)
备注: 3 figures an 5 tables; Accepted by AMIA 2025 Informatics Summit
💡 一句话要点
BioMistral-NLU:通过指令微调提升医学语言理解的泛化能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 医学自然语言理解 指令微调 大型语言模型 零样本学习 BioMistral MNLU-Instruct 泛化能力
📋 核心要点
- 现有指令微调的大型语言模型在专业医学自然语言理解任务中表现不佳,缺乏领域知识和细粒度理解。
- 论文提出一种统一的提示格式,并构建了包含多种医学NLU任务的指令微调数据集MNLU-Instruct。
- 通过在MNLU-Instruct上微调BioMistral,得到BioMistral-NLU模型,并在零样本设置下超越了BioMistral、ChatGPT和GPT-4。
📝 摘要(中文)
大型语言模型(LLMs)如ChatGPT在大量且多样化的指令遵循语料库上进行微调,从而能够泛化到新的任务。然而,这些经过指令微调的LLMs在需要领域知识、细粒度文本理解和结构化数据提取的专业医学自然语言理解(NLU)任务中表现通常不佳。为了弥合这一差距,我们:(1)为7个重要的NLU任务提出了一种统一的提示格式;(2)利用各种现有的开源医学NLU语料库,策划了一个指令微调数据集MNLU-Instruct;(3)通过在MNLU-Instruct上微调BioMistral,开发了一个可泛化的医学NLU模型BioMistral-NLU。我们在零样本设置下,在来自两个广泛采用的医学NLU基准BLUE和BLURB的6个重要NLU任务中评估BioMistral-NLU。实验表明,我们的BioMistral-NLU优于原始的BioMistral,以及专有的LLMs——ChatGPT和GPT-4。我们与数据集无关的提示策略和跨各种NLU任务的指令微调步骤增强了LLMs在各种医学NLU任务中的泛化能力。我们的消融实验表明,即使训练实例的总数保持不变,在更广泛的任务上进行指令微调也能增强下游零样本泛化能力。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在医学自然语言理解(NLU)任务中泛化能力不足的问题。现有方法,如直接使用通用LLM或在特定数据集上微调的模型,难以在不同的医学NLU任务中取得良好的零样本表现,因为它们缺乏足够的领域知识和对细粒度文本的理解能力。
核心思路:论文的核心思路是通过指令微调(Instruction Tuning)的方式,利用一个包含多种医学NLU任务的数据集,训练一个能够理解和执行各种医学NLU指令的模型。通过这种方式,模型可以学习到更通用的医学知识和NLU能力,从而提高其在未见过的任务上的泛化能力。
技术框架:论文的技术框架主要包括三个部分:1)统一的提示格式:为7个不同的NLU任务设计统一的prompt模板,使得模型能够以一致的方式处理不同的任务。2)MNLU-Instruct数据集:构建一个包含多种医学NLU任务的指令微调数据集,该数据集整合了现有的开源医学NLU语料库。3)BioMistral-NLU模型:在BioMistral模型的基础上,使用MNLU-Instruct数据集进行指令微调,得到BioMistral-NLU模型。
关键创新:论文的关键创新在于:1)提出了一个与数据集无关的提示策略,使得模型能够更好地泛化到不同的医学NLU任务。2)构建了一个包含多种医学NLU任务的指令微调数据集MNLU-Instruct,该数据集覆盖了广泛的医学NLU任务类型。3)通过指令微调,显著提高了BioMistral模型在医学NLU任务中的零样本泛化能力。
关键设计:论文的关键设计包括:1)统一的提示格式,确保模型能够以一致的方式处理不同的NLU任务。2)MNLU-Instruct数据集的构建,该数据集包含了多种医学NLU任务,并且经过了仔细的清洗和标注。3)指令微调过程,使用了合适的学习率和优化器,以确保模型能够充分学习到MNLU-Instruct数据集中的知识。
🖼️ 关键图片
📊 实验亮点
实验结果表明,BioMistral-NLU在零样本设置下,在BLUE和BLURB两个医学NLU基准测试中,显著优于原始的BioMistral模型,以及ChatGPT和GPT-4等通用LLM。消融实验也证明,在更广泛的任务上进行指令微调可以有效提升模型的零样本泛化能力。
🎯 应用场景
该研究成果可应用于多种医学自然语言处理场景,例如辅助医生进行病历分析、医学文献检索、临床决策支持等。通过提高医学NLU模型的泛化能力,可以减少对特定数据集的依赖,降低模型部署和维护成本,从而促进人工智能在医疗领域的广泛应用。
📄 摘要(原文)
Large language models (LLMs) such as ChatGPT are fine-tuned on large and diverse instruction-following corpora, and can generalize to new tasks. However, those instruction-tuned LLMs often perform poorly in specialized medical natural language understanding (NLU) tasks that require domain knowledge, granular text comprehension, and structured data extraction. To bridge the gap, we: (1) propose a unified prompting format for 7 important NLU tasks, (2) curate an instruction-tuning dataset, MNLU-Instruct, utilizing diverse existing open-source medical NLU corpora, and (3) develop BioMistral-NLU, a generalizable medical NLU model, through fine-tuning BioMistral on MNLU-Instruct. We evaluate BioMistral-NLU in a zero-shot setting, across 6 important NLU tasks, from two widely adopted medical NLU benchmarks: BLUE and BLURB. Our experiments show that our BioMistral-NLU outperforms the original BioMistral, as well as the proprietary LLMs - ChatGPT and GPT-4. Our dataset-agnostic prompting strategy and instruction tuning step over diverse NLU tasks enhance LLMs' generalizability across diverse medical NLU tasks. Our ablation experiments show that instruction-tuning on a wider variety of tasks, even when the total number of training instances remains constant, enhances downstream zero-shot generalization.