Mitigating Catastrophic Forgetting in Language Transfer via Model Merging
作者: Anton Alexandrov, Veselin Raychev, Mark Niklas Müller, Ce Zhang, Martin Vechev, Kristina Toutanova
分类: cs.LG
发布日期: 2024-07-11 (更新: 2024-07-16)
💡 一句话要点
提出Branch-and-Merge方法,缓解LLM语言迁移中的灾难性遗忘
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语言迁移 灾难性遗忘 模型合并 大型语言模型 持续学习
📋 核心要点
- 现有语言模型迁移方法会导致灾难性遗忘,严重影响模型在原始语言上的性能。
- 论文提出Branch-and-Merge (BaM)方法,通过合并在数据子集上微调的模型来降低遗忘。
- 实验表明,BaM在保加利亚语和德语上显著减少遗忘,同时保持或提升目标语言性能。
📝 摘要(中文)
随着开放权重的大型语言模型(LLM)在各种英语任务中取得越来越令人印象深刻的性能,从业者们致力于将这些模型适配到不同的语言。然而,这种语言适配通常伴随着基础模型能力的灾难性遗忘,严重限制了生成模型的实用性。我们通过提出Branch-and-Merge (BaM)来解决这个问题,这是一种基于迭代合并多个模型的新的适配方法,这些模型在可用训练数据的子集上进行微调。BaM基于这样的洞察:这种方法产生较低幅度但更高质量的权重变化,从而减少源域的遗忘,同时保持目标域的学习。我们在保加利亚语和德语的广泛实证研究中表明,与标准持续预训练和指令微调相比,BaM可以显著减少遗忘,同时匹配甚至提高目标域的性能,适用于不同的模型架构。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在进行语言迁移时出现的灾难性遗忘问题。现有方法,如持续预训练或指令微调,在适应新语言的同时,往往会显著降低模型在原始语言上的性能,限制了迁移学习的有效性。这种遗忘现象使得模型在迁移后无法同时保持两种语言的能力。
核心思路:BaM的核心思路是通过将模型在不同数据子集上进行微调,然后将这些微调后的模型进行合并,从而实现更平滑的权重更新。这种方法旨在降低每次更新的幅度,但提高更新的质量,从而减少对原始语言知识的破坏,同时促进对目标语言的学习。
技术框架:BaM方法包含以下主要步骤:1) 将目标语言的训练数据划分为多个子集。2) 基于原始预训练模型,在每个数据子集上分别进行微调,得到多个分支模型。3) 迭代地合并这些分支模型。每次合并时,选择两个模型进行合并,合并后的模型再与其他模型合并,直到所有模型合并为一个最终模型。
关键创新:BaM的关键创新在于其迭代合并多个微调模型的策略。与直接在整个目标语言数据集上进行微调相比,BaM通过在数据子集上进行微调,并逐步合并模型,能够更有效地平衡目标语言学习和原始语言知识的保留。这种方法避免了单一的大幅度权重更新,从而降低了灾难性遗忘的风险。
关键设计:BaM的关键设计包括:1) 数据子集的划分策略,例如随机划分或基于某种语言特征的划分。2) 模型合并的策略,例如简单平均权重或使用更复杂的权重调整方法。3) 迭代合并的顺序,例如随机选择或基于模型性能的排序。论文可能还涉及损失函数的设计,以鼓励模型在目标语言上学习的同时,保持原始语言的性能。具体的参数设置和网络结构细节取决于所使用的基础语言模型。
🖼️ 关键图片
📊 实验亮点
实验结果表明,BaM方法在保加利亚语和德语的语言迁移任务中,显著降低了灾难性遗忘现象。与传统的持续预训练和指令微调方法相比,BaM在保持或提升目标语言性能的同时,大幅提高了模型在原始语言上的性能。具体性能提升数据未知,但结论是BaM优于其他基线方法。
🎯 应用场景
该研究成果可广泛应用于多语言自然语言处理领域,尤其是在需要将大型语言模型快速迁移到资源匮乏语言的场景下。通过BaM方法,可以有效降低语言迁移过程中的灾难性遗忘,提升模型在多种语言上的综合性能,从而促进跨语言信息处理、机器翻译和多语言对话系统等应用的发展。
📄 摘要(原文)
As open-weight large language models (LLMs) achieve ever more impressive performances across a wide range of tasks in English, practitioners aim to adapt these models to different languages. However, such language adaptation is often accompanied by catastrophic forgetting of the base model's capabilities, severely limiting the usefulness of the resulting model. We address this issue by proposing Branch-and-Merge (BaM), a new adaptation method based on iteratively merging multiple models, fine-tuned on a subset of the available training data. BaM is based on the insight that this yields lower magnitude but higher quality weight changes, reducing forgetting of the source domain while maintaining learning on the target domain. We demonstrate in an extensive empirical study on Bulgarian and German that BaM can significantly reduce forgetting while matching or even improving target domain performance compared to both standard continued pretraining and instruction finetuning across different model architectures.