When Domain Pretraining Interferes with Instruction Alignment: An Empirical Study of Adapter Merging in Medical LLMs

作者: Junyi Zou

分类: cs.CL, cs.AI

发布日期: 2026-01-26

💡 一句话要点

针对医学LLM，提出加权Adapter融合方法，解决领域预训练与指令对齐的干扰问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 医学LLM 领域预训练 指令对齐 Adapter融合 LoRA微调

📋 核心要点

医学LLM在领域知识和指令对齐间存在冲突，领域预训练可能干扰指令微调，导致模型无法同时兼顾专业性和安全性。
提出加权Adapter融合方法，通过线性组合领域预训练和指令微调的Adapter，平衡模型在知识保留和指令遵循方面的能力。
实验表明，该方法在医学问答任务上取得了显著的性能提升，BLEU-4达到16.38，ROUGE-1达到20.42，验证了方法的有效性。

📝 摘要（中文）

大型语言模型（LLMs）展现出强大的通用能力，但通常在医学术语的精确性和安全相关的指令遵循方面表现不佳。本文以一个140亿参数的基础模型为例，研究了安全关键领域中Adapter的干扰问题，采用两阶段LoRA流程：（1）领域自适应预训练（PT），通过持续预训练（DAPT）注入广泛的医学知识；（2）监督微调（SFT），通过指令风格的数据使模型与医学问答行为对齐。为了平衡指令遵循能力和领域知识保留，我们提出了加权Adapter融合方法，在线性组合SFT和PT Adapter后，导出一个融合的基础模型检查点。在一个保留的医学验证集（F5/F6）上，该融合模型在实际解码配置下实现了BLEU-4 = 16.38，ROUGE-1 = 20.42，ROUGE-2 = 4.60和ROUGE-L = 11.54。我们进一步分析了解码敏感性和训练稳定性，通过损失曲线和受控解码比较。

🔬 方法详解

问题定义：论文旨在解决医学领域大型语言模型（LLM）在进行领域自适应预训练（DAPT）和指令微调（SFT）时出现的知识冲突问题。具体来说，DAPT旨在注入医学知识，而SFT旨在使模型遵循医学问答指令。然而，直接进行SFT可能会覆盖或干扰DAPT获得的领域知识，导致模型在医学专业性方面表现不佳。现有方法难以在指令遵循和领域知识保留之间取得平衡。

核心思路：论文的核心思路是通过加权Adapter融合来平衡DAPT和SFT的影响。Adapter是一种轻量级的参数化模块，可以插入到LLM中进行微调，而无需修改原始模型参数。通过分别训练DAPT和SFT的Adapter，然后将它们线性组合，可以控制模型对领域知识和指令的关注程度。这种方法允许模型在遵循指令的同时，保留尽可能多的医学知识。

技术框架：整体流程包括三个主要阶段：（1）使用LoRA技术进行领域自适应预训练（DAPT），训练一个Adapter以注入医学知识。（2）使用LoRA技术进行监督微调（SFT），训练另一个Adapter以对齐医学问答指令。（3）使用提出的加权Adapter融合方法，将DAPT和SFT的Adapter线性组合，得到一个融合的Adapter。最终，将融合后的Adapter合并回基础模型，得到一个同时具备领域知识和指令遵循能力的模型。

关键创新：最重要的技术创新点是加权Adapter融合方法。与直接进行SFT或简单地将DAPT和SFT模型进行集成不同，该方法通过线性组合Adapter来细粒度地控制模型对不同知识来源的关注程度。这种方法可以有效地平衡指令遵循和领域知识保留，从而提高模型在医学问答任务上的性能。

关键设计：关键的设计包括：(1) 使用LoRA进行Adapter训练，降低训练成本。(2) 使用线性加权融合Adapter，权重系数的选择至关重要，需要根据具体任务进行调整。(3) 在医学验证集上评估融合模型的性能，并分析解码敏感性和训练稳定性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，提出的加权Adapter融合方法在医学验证集上取得了显著的性能提升。具体来说，融合模型在BLEU-4指标上达到了16.38，ROUGE-1指标上达到了20.42，ROUGE-2指标上达到了4.60，ROUGE-L指标上达到了11.54。这些结果表明，该方法能够有效地平衡指令遵循和领域知识保留，从而提高模型在医学问答任务上的性能。

🎯 应用场景

该研究成果可应用于医疗问答系统、智能诊断助手、医学知识库构建等领域。通过提升医学LLM的专业性和安全性，可以为医生和患者提供更准确、可靠的医疗信息和决策支持，从而改善医疗服务质量和效率。未来，该方法可以推广到其他安全关键领域，例如金融、法律等。

📄 摘要（原文）

Large language models (LLMs) show strong general capability but often struggle with medical terminology precision and safety-critical instruction following. We present a case study for adapter interference in safety-critical domains using a 14B-parameter base model through a two-stage LoRA pipeline: (1) domain-adaptive pre-training (PT) to inject broad medical knowledge via continued pre-training (DAPT), and (2) supervised fine-tuning (SFT) to align the model with medical question-answering behaviors through instruction-style data. To balance instruction-following ability and domain knowledge retention, we propose Weighted Adapter Merging, linearly combining SFT and PT adapters before exporting a merged base-model checkpoint. On a held-out medical validation set (F5/F6), the merged model achieves BLEU-4 = 16.38, ROUGE-1 = 20.42, ROUGE-2 = 4.60, and ROUGE-L = 11.54 under a practical decoding configuration. We further analyze decoding sensitivity and training stability with loss curves and controlled decoding comparisons.

When Domain Pretraining Interferes with Instruction Alignment: An Empirical Study of Adapter Merging in Medical LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理