To Adapt or not to Adapt, Rethinking the Value of Medical Knowledge-Aware Large Language Models

📄 arXiv: 2604.06854v1 📥 PDF

作者: Ane G. Domingo-Aldama, Iker De La Iglesia, Maitane Urruela, Aitziber Atutxa, Ander Barrena

分类: cs.CL

发布日期: 2026-04-08


💡 一句话要点

重新评估医学知识增强大语言模型的价值,揭示其在特定场景下的局限性与潜力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 医学大语言模型 领域自适应 鲁棒性评估 指令遵循 低资源语言 临床问答 Marmoka模型

📋 核心要点

  1. 现有医学领域自适应大语言模型在标准基准测试中表现不稳定,未能持续超越通用模型。
  2. 论文通过引入基于扰动的评估基准,系统评估了通用和临床LLMs的鲁棒性和指令遵循能力。
  3. 实验结果表明,英语临床LLMs提升有限,但Marmoka模型在西班牙语任务中表现出色。

📝 摘要(中文)

背景:近期研究表明,领域自适应的大语言模型(LLMs)在标准医学基准测试中并未持续优于通用模型,引发了对专门临床适应必要性的质疑。方法:我们系统地比较了通用和临床LLMs在一系列英语和西班牙语多项选择临床问题回答任务上的表现。我们引入了一种基于扰动的评估基准,用于探测模型的鲁棒性、指令遵循能力以及对对抗性变体的敏感性。我们的评估包括单步和两步问题转换、多提示测试和指令引导评估。我们分析了一系列最先进的临床模型及其通用对应模型,重点关注基于Llama 3.1的模型。此外,我们还推出了Marmoka,一个轻量级的80亿参数英语和西班牙语临床LLMs家族,通过在医学语料库和指令上进行持续的领域自适应预训练开发。结果:实验表明,即使在提出的基于扰动的基准测试下,临床LLMs在英语临床任务上的表现也并未持续优于其通用模型。然而,对于西班牙语子集,提出的Marmoka模型获得了比Llama更好的结果。结论:我们的结果表明,在当前的简短MCQA基准测试下,临床LLMs在英语方面仅提供微小且不稳定的改进,表明现有的评估框架可能不足以捕捉真正的医学专业知识。我们进一步发现,通用模型和临床模型在指令遵循和严格的输出格式方面都表现出很大的局限性。最后,我们证明了可以为西班牙语等低资源语言成功开发出强大的医学LLMs,Marmoka模型就是证明。

🔬 方法详解

问题定义:论文旨在解决医学领域大语言模型(LLMs)的有效性问题,特别是领域自适应的LLMs是否真的优于通用LLMs。现有方法的痛点在于,尽管针对医学领域进行了专门训练,但这些模型在标准基准测试中并没有表现出持续的优越性,这使得领域自适应的必要性受到质疑。

核心思路:论文的核心思路是通过更严格和全面的评估方法来重新审视医学LLMs的价值。通过引入基于扰动的评估基准,论文旨在探测模型在面对真实世界中可能出现的各种挑战时的鲁棒性、指令遵循能力和对对抗性变体的敏感性。此外,论文还关注低资源语言,探索是否可以通过领域自适应预训练来构建有效的医学LLMs。

技术框架:论文的整体框架包括以下几个主要阶段:1) 选择一系列通用和临床LLMs进行比较,重点关注Llama 3.1系列模型。2) 构建一个包含英语和西班牙语的多项选择临床问题回答任务数据集。3) 引入基于扰动的评估基准,包括单步和两步问题转换、多提示测试和指令引导评估。4) 开发Marmoka模型,一个轻量级的80亿参数英语和西班牙语临床LLMs家族,通过持续的领域自适应预训练开发。5) 对比分析不同模型在各种评估指标上的表现,并得出结论。

关键创新:论文最重要的技术创新点在于提出了基于扰动的评估基准,该基准能够更全面地评估医学LLMs的性能,包括鲁棒性、指令遵循能力和对对抗性变体的敏感性。此外,Marmoka模型的开发也展示了为低资源语言构建有效医学LLMs的可行性。

关键设计:Marmoka模型采用持续的领域自适应预训练方法,在医学语料库和指令上进行训练。具体的参数设置和网络结构细节未在摘要中详细说明,但强调了其轻量级(80亿参数)的设计。损失函数和具体的训练策略也未在摘要中明确提及。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在英语临床任务中,临床LLMs并未持续优于通用模型,但在西班牙语任务中,Marmoka模型表现优异,超越了Llama。这表明,对于低资源语言,领域自适应预训练可以显著提升LLMs的医学知识理解和应用能力。该研究强调了现有评估框架的局限性,并提出了更严格的评估方法。

🎯 应用场景

该研究成果可应用于医疗诊断辅助、医学知识问答、医学教育等领域。Marmoka模型的成功表明,即使在低资源语言环境下,也能构建出有效的医学LLMs,这对于提升全球医疗服务的可及性和质量具有重要意义。未来,可以进一步探索如何利用领域知识和指令微调来提升LLMs在医学领域的表现。

📄 摘要(原文)

BACKGROUND: Recent studies have shown that domain-adapted large language models (LLMs) do not consistently outperform general-purpose counterparts on standard medical benchmarks, raising questions about the need for specialized clinical adaptation. METHODS: We systematically compare general and clinical LLMs on a diverse set of multiple choice clinical question answering tasks in English and Spanish. We introduce a perturbation based evaluation benchmark that probes model robustness, instruction following, and sensitivity to adversarial variations. Our evaluation includes, one-step and two-step question transformations, multi prompt testing and instruction guided assessment. We analyze a range of state-of-the-art clinical models and their general-purpose counterparts, focusing on Llama 3.1-based models. Additionally, we introduce Marmoka, a family of lightweight 8B-parameter clinical LLMs for English and Spanish, developed via continual domain-adaptive pretraining on medical corpora and instructions. RESULTS: The experiments show that clinical LLMs do not consistently outperform their general purpose counterparts on English clinical tasks, even under the proposed perturbation based benchmark. However, for the Spanish subsets the proposed Marmoka models obtain better results compared to Llama. CONCLUSIONS: Our results show that, under current short-form MCQA benchmarks, clinical LLMs offer only marginal and unstable improvements over general-purpose models in English, suggesting that existing evaluation frameworks may be insufficient to capture genuine medical expertise. We further find that both general and clinical models exhibit substantial limitations in instruction following and strict output formatting. Finally, we demonstrate that robust medical LLMs can be successfully developed for low-resource languages such as Spanish, as evidenced by the Marmoka models.