Less, but Better: Efficient Multilingual Expansion for LLMs via Layer-wise Mixture-of-Experts
作者: Xue Zhang, Yunlong Liang, Fandong Meng, Songming Zhang, Yufeng Chen, Jinan Xu, Jie Zhou
分类: cs.CL
发布日期: 2025-05-28
备注: ACL 2025 (Main), 16 pages, 5 figures, 11 tables
💡 一句话要点
提出LayerMoE:一种基于层级混合专家模型的LLM高效多语言扩展方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多语言扩展 大型语言模型 混合专家模型 层级专家分配 灾难性遗忘
📋 核心要点
- 现有LLM多语言扩展方法参数量大,且易影响原有语言性能,面临持续学习新语言的挑战。
- LayerMoE通过分析LLM不同层级的语言相似性,自适应地为每层分配专家,减少参数冗余。
- 实验表明,LayerMoE在显著减少专家数量的同时,优于现有技术,提升了多语言扩展的效率。
📝 摘要(中文)
本文提出了一种高效的多语言扩展方法LayerMoE,用于解决大型语言模型(LLMs)持续扩展新语言时面临的挑战。该方法旨在在不显著增加参数量的前提下,保持模型在原有语言上的熟练能力。现有方法通常采用混合专家(MoE)架构,通过增加新的专家来扩展新语言,但这种方法参数开销大,且不可避免地影响原有语言的性能。为了解决这些问题,我们分析了LLMs中不同层级的语言特征,并提出了一种层级专家分配算法(LayerMoE),根据层级的语言相似性来确定每层所需的新专家数量。此外,为了进一步减轻对原有语言的遗忘,我们在相似性较高的层级的路由网络前添加了一个分类器,以指导原有语言token的路由。实验结果表明,我们的方法在单次扩展设置下,使用比现有最佳基线少60%的专家,在终身扩展设置下,使用少33.3%的专家,性能均优于现有技术,证明了该方法的有效性。
🔬 方法详解
问题定义:现有的大型语言模型(LLMs)在扩展新语言时,面临着参数量快速增长和对原有语言性能产生负面影响的问题。传统的MoE方法虽然能够通过增加新的专家来学习新语言,但其参数开销巨大,并且由于新专家的引入,不可避免地会影响模型在原有语言上的表现,即出现灾难性遗忘现象。
核心思路:本文的核心思路是观察到LLM的不同层对不同语言的表示具有不同的相似性。基于此,提出一种层级的专家分配策略,即LayerMoE。对于语言相似性高的层,分配较少的专家;对于语言相似性低的层,分配较多的专家。这种策略旨在用最少的专家数量,达到最佳的多语言扩展效果,同时缓解对原有语言的遗忘。
技术框架:LayerMoE方法主要包含两个关键模块:层级专家分配算法和路由引导分类器。首先,通过分析LLM各层对不同语言的表示相似性,确定每层需要分配的专家数量。然后,在语言相似性较高的层,在路由网络前添加一个分类器,用于引导原有语言的token路由到原始模型骨干网络,从而减轻对原有语言的遗忘。整体流程是:输入token -> 各层LayerMoE模块(包含专家分配和路由引导) -> 输出。
关键创新:该方法最重要的创新点在于提出了层级的专家分配策略,打破了以往所有层都采用相同数量专家的做法。通过分析LLM内部不同层对不同语言的表示相似性,实现了专家资源的精细化分配,从而在保证性能的同时,显著减少了参数量。与现有方法相比,LayerMoE能够更有效地利用模型容量,实现更高效的多语言扩展。
关键设计:LayerMoE的关键设计包括:1) 语言相似性度量方法:具体如何计算LLM各层对不同语言的表示相似性,可能是基于某种距离度量,例如余弦相似度。2) 专家数量分配策略:如何根据相似性值确定每层分配的专家数量,可能采用某种线性或非线性映射关系。3) 路由引导分类器:分类器的具体结构(例如,全连接网络)和训练方式,以及如何将其与路由网络结合,以实现对原有语言token的有效引导。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LayerMoE在单次扩展设置下,使用比现有最佳基线少60%的专家,性能仍然优于现有技术。在终身扩展设置下,LayerMoE使用少33.3%的专家,性能同样优于现有技术。这些结果充分证明了LayerMoE在降低参数开销和提升多语言扩展效率方面的有效性。
🎯 应用场景
该研究成果可应用于构建更高效、更强大的多语言大型语言模型,提升跨语言信息处理能力,例如机器翻译、跨语言信息检索、多语言对话系统等。其降低参数量的特性,也有助于在资源受限的设备上部署多语言LLM,促进全球范围内的信息交流和知识共享。
📄 摘要(原文)
Continually expanding new languages for existing large language models (LLMs) is a promising yet challenging approach to building powerful multilingual LLMs. The biggest challenge is to make the model continuously learn new languages while preserving the proficient ability of old languages. To achieve this, recent work utilizes the Mixture-of-Experts (MoE) architecture to expand new languages by adding new experts and avoid catastrophic forgetting of old languages by routing corresponding tokens to the original model backbone (old experts). Although intuitive, this kind of method is parameter-costly when expanding new languages and still inevitably impacts the performance of old languages. To address these limitations, we analyze the language characteristics of different layers in LLMs and propose a layer-wise expert allocation algorithm (LayerMoE) to determine the appropriate number of new experts for each layer. Specifically, we find different layers in LLMs exhibit different representation similarities between languages and then utilize the similarity as the indicator to allocate experts for each layer, i.e., the higher similarity, the fewer experts. Additionally, to further mitigate the forgetting of old languages, we add a classifier in front of the router network on the layers with higher similarity to guide the routing of old language tokens. Experimental results show that our method outperforms the previous state-of-the-art baseline with 60% fewer experts in the single-expansion setting and with 33.3% fewer experts in the lifelong-expansion setting, demonstrating the effectiveness of our method.