Medical Adaptation of Large Language and Vision-Language Models: Are We Making Progress?
作者: Daniel P. Jeong, Saurabh Garg, Zachary C. Lipton, Michael Oberst
分类: cs.CL, cs.AI, cs.LG
发布日期: 2024-11-06 (更新: 2024-11-19)
备注: This version was published at EMNLP 2024 Main Conference as a Long Paper (Oral). See the extended version (arXiv:2411.08870) for additional results on QA tasks based on clinical notes and evaluations in the supervised fine-tuning regime
💡 一句话要点
医学领域大语言和视觉语言模型适配研究:领域自适应预训练真的有效吗?
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 医学大语言模型 视觉语言模型 领域自适应预训练 医学问答 模型评估
📋 核心要点
- 现有医学领域大语言模型适配方法,依赖于领域自适应预训练,但其有效性缺乏充分验证。
- 论文通过严格的实验设计,对比医学模型及其基础模型在医学问答任务上的性能。
- 实验结果表明,领域自适应预训练后的医学模型,在多数情况下并未显著优于其基础模型。
📝 摘要(中文)
最近的一些工作致力于开发专门用于医学领域的基础模型,通过在公开的生物医学语料库上进行持续预训练来适配通用的大型语言模型(LLM)和视觉语言模型(VLM)。这些工作通常声称,这种领域自适应预训练(DAPT)可以提高下游医学任务的性能,例如回答医学执照考试问题。在本文中,我们比较了七个公开的“医学”LLM和两个VLM与其对应的基础模型,得出了不同的结论:所有的医学VLM和几乎所有的医学LLM都未能持续地在医学问答(QA)任务的零样本/少样本提示设置中优于其基础模型。例如,在我们考虑的3-shot设置中的任务和模型对中,医学LLM仅在12.1%的情况下优于其基础模型,在49.8%的情况下达到(统计)平局,并且在剩余的38.2%的情况下明显差于其基础模型。我们的结论基于(i)将每个医学模型与其对应的基础模型进行直接的头对头比较;(ii)分别优化每个模型的提示;以及(iii)考虑比较中的统计不确定性。虽然这些基本实践在文献中没有得到一致的采用,但我们的消融实验表明,它们对结论产生了重大影响。我们的研究结果表明,最先进的通用领域模型可能已经表现出强大的医学知识和推理能力,并为加强未来研究的结论提供了建议。
🔬 方法详解
问题定义:论文旨在评估领域自适应预训练(DAPT)在医学领域大型语言模型(LLM)和视觉语言模型(VLM)上的有效性。现有方法声称DAPT可以提高模型在医学问答等下游任务上的性能,但缺乏严格的对比实验,可能存在偏差,例如未针对每个模型单独优化prompt,或未考虑统计显著性。
核心思路:论文的核心思路是通过严格的头对头比较,直接对比医学模型与其对应的基础模型在医学问答任务上的性能。通过针对每个模型单独优化prompt,并考虑统计不确定性,来更准确地评估DAPT的实际效果。如果DAPT确实有效,那么医学模型应该显著优于其基础模型。
技术框架:论文采用了一种实验评估框架,包括以下几个关键步骤:1) 选择多个公开的“医学”LLM和VLM及其对应的基础模型;2) 选择医学问答数据集作为评估基准;3) 针对每个模型,独立优化prompt,以获得最佳性能;4) 在零样本和少样本设置下,运行医学模型和基础模型,并记录性能指标;5) 使用统计检验方法,比较医学模型和基础模型之间的性能差异,并考虑统计显著性。
关键创新:论文的关键创新在于其严格的实验评估方法,包括:1) 头对头比较:直接对比医学模型与其基础模型,避免了不同模型之间的混淆;2) 独立prompt优化:针对每个模型单独优化prompt,确保每个模型都能发挥最佳性能;3) 统计显著性检验:使用统计检验方法,评估性能差异的显著性,避免了偶然因素的影响。这些方法在以往的研究中并未得到一致的应用。
关键设计:论文的关键设计包括:1) 选择了多个医学LLM和VLM,以增加实验的泛化性;2) 采用了零样本和少样本设置,以模拟实际应用场景;3) 使用了常用的医学问答数据集,以保证实验结果的可比性;4) 针对每个模型,使用了网格搜索等方法来优化prompt;5) 使用了t检验等统计方法来评估性能差异的显著性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在3-shot设置下,医学LLM仅在12.1%的情况下优于其基础模型,在49.8%的情况下与基础模型持平,而在38.2%的情况下显著差于基础模型。这表明,领域自适应预训练并未能持续提升模型在医学问答任务上的性能。消融实验也证实,prompt优化和统计显著性检验对实验结论有显著影响。
🎯 应用场景
该研究成果对医学人工智能领域具有重要意义,有助于更理性地评估领域自适应预训练的价值。避免盲目投入资源进行DAPT,转而关注更有效的模型优化方法,例如更有效的prompt工程、知识图谱融合等。同时,该研究也为未来医学领域大模型的评估提供了更严谨的实验范式。
📄 摘要(原文)
Several recent works seek to develop foundation models specifically for medical applications, adapting general-purpose large language models (LLMs) and vision-language models (VLMs) via continued pretraining on publicly available biomedical corpora. These works typically claim that such domain-adaptive pretraining (DAPT) improves performance on downstream medical tasks, such as answering medical licensing exam questions. In this paper, we compare seven public "medical" LLMs and two VLMs against their corresponding base models, arriving at a different conclusion: all medical VLMs and nearly all medical LLMs fail to consistently improve over their base models in the zero-/few-shot prompting regime for medical question-answering (QA) tasks. For instance, across the tasks and model pairs we consider in the 3-shot setting, medical LLMs only outperform their base models in 12.1% of cases, reach a (statistical) tie in 49.8% of cases, and are significantly worse than their base models in the remaining 38.2% of cases. Our conclusions are based on (i) comparing each medical model head-to-head, directly against the corresponding base model; (ii) optimizing the prompts for each model separately; and (iii) accounting for statistical uncertainty in comparisons. While these basic practices are not consistently adopted in the literature, our ablations show that they substantially impact conclusions. Our findings suggest that state-of-the-art general-domain models may already exhibit strong medical knowledge and reasoning capabilities, and offer recommendations to strengthen the conclusions of future studies.