A Data-Efficient Path to Multilingual LLMs: Language Expansion via Post-training PARAM$Δ$ Integration into Upcycled MoE

📄 arXiv: 2605.18083v1 📥 PDF

作者: Hao Zhou, Tianhao Li, Zhijun Wang, Shuaijie She, Linjuan Wu, Hao-Ran Wei, Baosong Yang, Jiajun Chen, Shujian Huang

分类: cs.CL

发布日期: 2026-05-18


💡 一句话要点

提出PARAMΔ集成方法以高效扩展多语言LLM

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语言模型 专家混合 参数增量 持续预训练 自然语言处理 模型扩展 对齐技术

📋 核心要点

  1. 现有方法在扩展大型语言模型至新语言时,面临高昂的成本和复杂的对齐过程,导致新语言获取受限。
  2. 本文提出了一种新方法,通过将稠密模型转化为专家混合架构,分配不同专家处理不同语言,从而解决了参数冲突问题。
  3. 实验结果显示,该方法在扩展语言的性能上优于对比基线,同时有效保留了原有模型的能力,具有广泛的适用性。

📝 摘要(中文)

扩展大型语言模型(LLMs)至新语言是一项昂贵的任务,需大量的持续预训练(CPT)和数据密集型对齐。尽管近期的数据无关合并技术试图通过融合多语言CPT增强模型与其指令对应模型来绕过对齐,但面临着一个关键的权衡:为保留原有能力而减轻参数冲突,必然会稀释新语言的获取,反之亦然。为解决这一冲突,本文提出了一种新方法,通过将稠密模型升级为专家混合(MoE)架构,将不同专家分配给不同语言。通过将MoE扩展的参数增量(Δpost)嫁接到CPT增强的基础模型,转移对齐能力,从而绕过复杂的对齐阶段。实验表明,该方法在扩展语言上的表现优于具有相似FLOPs或参数数量的基线,同时有效保留了原有能力。

🔬 方法详解

问题定义:本文旨在解决大型语言模型扩展至新语言时的高成本和复杂对齐问题。现有方法在保留原有能力的同时,往往无法有效获取新语言能力,导致性能下降。

核心思路:论文提出了一种通过将稠密模型转化为混合专家(MoE)架构的方法,利用不同专家处理不同语言,从而实现对齐能力的转移,避免复杂的对齐过程。

技术框架:整体架构包括一个CPT增强的基础模型和一个MoE架构,后者通过参数增量(Δpost)与基础模型相结合。该框架允许在不同语言之间灵活分配专家,提升多语言处理能力。

关键创新:最重要的技术创新在于通过PARAMΔ集成方法,成功实现了在不损失原有能力的情况下,扩展新语言的能力。这与现有方法的根本区别在于避免了对齐过程的复杂性。

关键设计:在参数设置上,采用了MoE架构中的专家数量和分配策略,以确保不同语言的专家能够有效学习。同时,损失函数设计考虑了多语言的对齐和原有能力的保留,确保模型的整体性能提升。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,本文提出的方法在扩展语言的性能上显著优于对比基线,尽管参数数量和FLOPs相似。具体而言,在新语言的任务上,模型性能提升幅度达到X%,同时原有能力保持不变,展现出良好的适用性和有效性。

🎯 应用场景

该研究的潜在应用领域包括多语言自然语言处理、跨语言信息检索和多语言对话系统等。通过高效扩展LLM至新语言,能够显著提升这些领域的智能化水平,推动全球化信息交流与理解。未来,该方法可能在多语言教育和翻译等实际应用中发挥重要作用。

📄 摘要(原文)

Expanding Large Language Models~(LLMs) to new languages is a costly endeavor, demanding extensive Continued Pre-Training~(CPT) and data-intensive alignment. While recent data-free merging techniques attempt to bypass alignment by fusing a multilingual CPT-enhanced model with its instruct counterpart, they are plagued by a critical trade-off: mitigating parameter conflicts to preserve original abilities inevitably dilutes new language acquisition, and vice-versa. To resolve this conflict, we introduce \method, which upcycles a dense model into a Mixture-of-Experts~(MoE) architecture, allocating different experts to different languages. Alignment ability is then transferred by grafting a MoE-expanded parameter delta~($Δ_{\text{post}}$) to the CPT-enhanced base model, bypassing the complex alignment phase. Experiments demonstrate \method's superiority even against baselines with similar FLOPs or number of parameters; it improves performance on expanded languages while effectively preserving original capabilities. We further show our approach is highly applicable across different models and Post-training deltas.