Group then Scale: Dynamic Mixture-of-Experts Multilingual Language Model

📄 arXiv: 2506.12388v1 📥 PDF

作者: Chong Li, Yingzhuo Deng, Jiajun Zhang, Chengqing Zong

分类: cs.CL, cs.AI

发布日期: 2025-06-14

备注: ACL 2025, our codes and models are available at https://github.com/ZNLP/DMoE


💡 一句话要点

提出动态混合专家多语言模型,解决多语言LLM的负迁移问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语言模型 混合专家模型 负迁移 语言分组 参数扩展

📋 核心要点

  1. 多语言LLM存在性能瓶颈,源于语言竞争和负迁移,限制了模型效果。
  2. 通过动态分组相似语言并扩展模型参数,提升相似语言的正迁移,降低负迁移。
  3. 实验证明,该方法在减少参数的同时,显著提升了多语言LLM的性能。

📝 摘要(中文)

多语言LLM面临着多语言困境,即大量语言之间的竞争导致性能下降。这主要源于有限的模型容量以及不相似语言之间的负迁移。为了解决这个问题,我们提出了一种动态分组和扩展多语言LLM参数的方法,同时促进相似语言之间的正迁移。具体来说,模型首先在单语语料库上进行微调,以确定每一层中的参数偏差,并量化语言之间的相似性。偏差较大的层被扩展为混合专家层,以减少语言之间的竞争,其中一个专家模块服务于一组相似的语言。在18到128种语言上的实验结果表明,我们的方法减少了语言之间的负迁移,并以更少的参数显著提高了多语言性能。专家上的这种语言分组专业化有利于新语言的适应,并减少了对先前学习的多语言知识的推理。

🔬 方法详解

问题定义:多语言大型语言模型(LLM)在处理多种语言时,由于模型容量有限以及不同语言之间的差异,容易出现“多语言诅咒”现象,即语言之间相互竞争,导致整体性能下降。现有方法难以有效区分和利用不同语言的特性,容易产生负迁移,从而限制了模型的泛化能力。

核心思路:该论文的核心思路是动态地对语言进行分组,并根据语言之间的相似性,为不同的语言组分配不同的专家模块。通过这种方式,模型可以针对不同的语言组进行专门优化,从而减少语言之间的竞争和负迁移,并促进相似语言之间的正迁移。

技术框架:该方法主要包含以下几个阶段:1) 单语微调:首先在单语语料库上对模型进行微调,以学习每种语言的特定特征。2) 参数偏差计算:计算每一层中参数的偏差,用于衡量不同语言之间的差异程度。3) 语言相似性量化:基于参数偏差,量化语言之间的相似性,将相似的语言划分为同一组。4) 混合专家层扩展:将偏差较大的层扩展为混合专家层,每个专家模块服务于一个语言组。

关键创新:该方法最重要的创新点在于动态地对语言进行分组,并根据语言的相似性分配专家模块。这种方法能够有效地减少语言之间的竞争和负迁移,并促进相似语言之间的正迁移。与现有方法相比,该方法能够更好地利用不同语言的特性,从而提高多语言LLM的性能。

关键设计:论文的关键设计包括:1) 使用单语微调来学习语言特定特征;2) 通过参数偏差来量化语言相似性;3) 将偏差大的层扩展为混合专家层,并为每个语言组分配一个专家模块。具体的参数设置、损失函数和网络结构等技术细节在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在18到128种语言上显著提高了多语言LLM的性能,同时减少了参数量。具体性能提升数据和对比基线在摘要中未提及,属于未知信息。该方法有效地减少了语言之间的负迁移,并促进了相似语言之间的正迁移,验证了其有效性。

🎯 应用场景

该研究成果可应用于多语言机器翻译、跨语言信息检索、多语言对话系统等领域。通过提升多语言LLM的性能,可以更好地服务于全球用户,促进不同语言之间的交流和理解。未来,该方法有望应用于更多语言和更复杂的任务,推动多语言自然语言处理的发展。

📄 摘要(原文)

The curse of multilinguality phenomenon is a fundamental problem of multilingual Large Language Models (LLMs), where the competition between massive languages results in inferior performance. It mainly comes from limited capacity and negative transfer between dissimilar languages. To address this issue, we propose a method to dynamically group and scale up the parameters of multilingual LLM while boosting positive transfer among similar languages. Specifically, the model is first tuned on monolingual corpus to determine the parameter deviation in each layer and quantify the similarity between languages. Layers with more deviations are extended to mixture-of-experts layers to reduce competition between languages, where one expert module serves one group of similar languages. Experimental results on 18 to 128 languages show that our method reduces the negative transfer between languages and significantly boosts multilingual performance with fewer parameters. Such language group specialization on experts benefits the new language adaptation and reduces the inference on the previous multilingual knowledge learned.