MoE-LPR: Multilingual Extension of Large Language Models through Mixture-of-Experts with Language Priors Routing

作者: Hao Zhou, Zhijun Wang, Shujian Huang, Xin Huang, Xue Han, Junlan Feng, Chao Deng, Weihua Luo, Jiajun Chen

分类: cs.CL

发布日期: 2024-08-21

🔗 代码/项目: GITHUB

💡 一句话要点

提出MoE-LPR，通过混合专家模型和语言先验路由增强LLM的多语言能力并缓解遗忘问题。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多语言模型 混合专家模型 语言先验路由 后预训练 灾难性遗忘 模型扩展 大语言模型 多任务学习

📋 核心要点

大型语言模型在扩展非英语语言能力时，容易遗忘原始语言的知识，难以平衡扩展与遗忘。
MoE-LPR通过冻结原始参数、增加新专家和引入语言先验路由，实现多语言能力的增强和遗忘的缓解。
实验表明，MoE-LPR在提高扩展语言能力的同时，有效保留了原始语言的熟练度，并具有良好的可扩展性。

📝 摘要（中文）

大型语言模型（LLM）由于预训练数据中语言分布不均，通常以英语为中心。通过后预训练增强非英语语言能力常常导致原始语言能力的灾难性遗忘。以往的方法要么在良好扩展的同时伴随严重的遗忘，要么在轻微遗忘的同时扩展效果不佳，这表明平衡语言扩展和防止遗忘是一个挑战。本文提出了一种名为MoE-LPR（Mixture-of-Experts with Language Priors Routing）的方法来缓解这个问题。MoE-LPR采用两阶段训练方法来增强多语言能力。首先，通过upcycling将模型后预训练成混合专家（MoE）架构，其中所有原始参数被冻结并添加新的专家。在这个阶段，我们专注于提高扩展语言的能力，而不使用任何原始语言数据。然后，模型使用少于1%后预训练数据量的回放数据回顾原始语言的知识，其中我们结合了语言先验路由，以更好地恢复原始语言的能力。在多个基准上的评估表明，MoE-LPR优于其他后预训练方法。冻结原始参数保留了原始语言知识，而添加新的专家保留了学习能力。使用LPR进行回顾能够有效利用参数中的多语言知识。此外，MoE架构在增加总模型参数的同时保持了相同的推理开销。大量实验证明了MoE-LPR在提高扩展语言能力和保持原始语言熟练度方面的有效性，并具有卓越的可扩展性。

🔬 方法详解

问题定义：大型语言模型（LLM）在扩展到多种语言时，面临着“灾难性遗忘”的问题，即在学习新语言的同时，显著降低了原有语言的性能。现有的后预训练方法难以在扩展语言能力和保持原有语言能力之间取得平衡，要么扩展效果好但遗忘严重，要么遗忘轻微但扩展效果差。

核心思路：MoE-LPR的核心思路是利用混合专家模型（MoE）的结构，将不同语言的学习分配给不同的专家，从而避免相互干扰。同时，通过冻结原始模型的参数，保留原有语言的知识。此外，引入语言先验路由（LPR），引导模型在回顾原有语言知识时，更加关注与该语言相关的专家，从而更有效地恢复原有语言的能力。

技术框架：MoE-LPR采用两阶段训练方法。第一阶段是MoE扩展阶段，将原始模型转化为MoE架构，添加新的专家，并使用扩展语言的数据进行训练，冻结原始参数。第二阶段是知识回顾阶段，使用少量原始语言数据，结合语言先验路由，对模型进行微调，以恢复原有语言的能力。整体流程为：原始LLM -> MoE扩展 (冻结原始参数，添加新专家) -> 知识回顾 (语言先验路由)。

关键创新：MoE-LPR的关键创新在于结合了混合专家模型和语言先验路由，实现了多语言扩展和遗忘缓解的有效平衡。通过MoE结构，将不同语言的学习解耦，避免了相互干扰。通过语言先验路由，引导模型更加关注与特定语言相关的专家，从而更有效地利用多语言知识。

关键设计：在MoE扩展阶段，采用upcycling技术，将原始模型转化为MoE架构，具体专家数量和容量因子（capacity factor）的选择需要根据具体任务和数据集进行调整。在知识回顾阶段，语言先验路由的设计至关重要，可以通过语言ID或其他语言特征来构建先验概率分布，引导模型选择合适的专家。回放数据的比例（小于1%）需要仔细调整，以避免过度拟合原始语言数据。

🖼️ 关键图片

📊 实验亮点

MoE-LPR在多个多语言基准测试中取得了显著的性能提升，超越了现有的后预训练方法。实验结果表明，MoE-LPR在提高扩展语言能力的同时，能够有效保留原始语言的熟练度。更重要的是，MoE-LPR在增加模型参数的同时，保持了相同的推理开销，展现了其卓越的可扩展性。具体性能数据和对比基线可以在论文的实验部分找到。

🎯 应用场景

MoE-LPR具有广泛的应用前景，可以用于构建更强大的多语言大型语言模型，从而提升机器翻译、跨语言信息检索、多语言对话系统等应用的效果。该方法还可以应用于其他多任务学习场景，例如，同时学习多种技能的机器人，或同时处理多种模态数据的模型。MoE-LPR的优势在于其良好的可扩展性和遗忘缓解能力，使其能够适应不断增长的语言种类和任务需求。

📄 摘要（原文）

Large Language Models (LLMs) are often English-centric due to the disproportionate distribution of languages in their pre-training data. Enhancing non-English language capabilities through post-pretraining often results in catastrophic forgetting of the ability of original languages. Previous methods either achieve good expansion with severe forgetting or slight forgetting with poor expansion, indicating the challenge of balancing language expansion while preventing forgetting. In this paper, we propose a method called MoE-LPR (Mixture-of-Experts with Language Priors Routing) to alleviate this problem. MoE-LPR employs a two-stage training approach to enhance the multilingual capability. First, the model is post-pretrained into a Mixture-of-Experts (MoE) architecture by upcycling, where all the original parameters are frozen and new experts are added. In this stage, we focus improving the ability on expanded languages, without using any original language data. Then, the model reviews the knowledge of the original languages with replay data amounting to less than 1% of post-pretraining, where we incorporate language priors routing to better recover the abilities of the original languages. Evaluations on multiple benchmarks show that MoE-LPR outperforms other post-pretraining methods. Freezing original parameters preserves original language knowledge while adding new experts preserves the learning ability. Reviewing with LPR enables effective utilization of multilingual knowledge within the parameters. Additionally, the MoE architecture maintains the same inference overhead while increasing total model parameters. Extensive experiments demonstrate MoE-LPR's effectiveness in improving expanded languages and preserving original language proficiency with superior scalability. Code and scripts are freely available at https://github.com/zjwang21/MoE-LPR.git.

MoE-LPR: Multilingual Extension of Large Language Models through Mixture-of-Experts with Language Priors Routing

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理