FuxiMT: Sparsifying Large Language Models for Chinese-Centric Multilingual Machine Translation
作者: Shaolin Zhu, Tianyu Dong, Bo Li, Deyi Xiong
分类: cs.CL, cs.AI
发布日期: 2025-05-20
💡 一句话要点
FuxiMT:面向中文的多语言机器翻译稀疏化大语言模型
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多语言机器翻译 稀疏化模型 大语言模型 混合专家 课程学习
📋 核心要点
- 现有机器翻译模型在低资源语言对上表现不佳,且难以有效利用大规模中文语料。
- FuxiMT通过稀疏化大语言模型,结合混合专家和课程学习,提升多语言翻译性能。
- 实验表明,FuxiMT在低资源翻译和零样本翻译上显著优于现有模型。
📝 摘要(中文)
本文提出了FuxiMT,一种新颖的以中文为中心的多语言机器翻译模型,该模型由稀疏化的大语言模型(LLM)驱动。我们采用两阶段策略来训练FuxiMT。首先,我们在大规模中文语料库上预训练模型,然后在包含65种语言的大型并行数据集上进行多语言微调。FuxiMT结合了混合专家(MoEs)模型,并采用课程学习策略,以在各种资源水平下实现稳健的性能。实验结果表明,FuxiMT显著优于强大的基线模型,包括最先进的LLM和机器翻译模型,尤其是在低资源场景下。此外,FuxiMT对于未见过的语言对表现出卓越的零样本翻译能力,表明其有潜力弥合并行数据稀缺或不可用的情况下的沟通鸿沟。
🔬 方法详解
问题定义:论文旨在解决多语言机器翻译中,尤其是在以中文为中心的环境下,低资源语言对翻译质量不高的问题。现有方法难以充分利用大规模中文语料进行预训练,并且在模型容量和泛化能力之间难以取得平衡。
核心思路:论文的核心思路是利用稀疏化的大语言模型(LLM)作为翻译模型的基础,通过预训练和微调的方式,提升模型在多语言翻译任务上的性能。稀疏化可以降低模型复杂度,提高训练效率,并增强模型的泛化能力。
技术框架:FuxiMT的训练分为两个阶段:首先,在大规模中文语料库上进行预训练,使模型学习到丰富的中文语言知识。然后,在包含65种语言的大型并行数据集上进行多语言微调,使模型具备跨语言翻译能力。模型采用了混合专家(MoEs)结构,允许模型根据输入选择不同的专家进行处理,从而提高模型容量和表达能力。同时,采用了课程学习策略,逐步增加训练难度,提高模型的鲁棒性。
关键创新:FuxiMT的关键创新在于将稀疏化技术应用于大语言模型,并将其应用于多语言机器翻译任务。通过稀疏化,模型可以在保持较高性能的同时,降低计算成本和存储需求。此外,结合混合专家和课程学习,进一步提升了模型的性能和泛化能力。
关键设计:论文中关于参数设置、损失函数和网络结构的具体技术细节未详细描述,属于未知信息。但可以推测,稀疏化的具体实现可能涉及权重剪枝、量化等技术。混合专家的选择机制和课程学习的难度调整策略也是关键的设计要素。
🖼️ 关键图片
📊 实验亮点
FuxiMT在实验中显著优于现有模型,尤其是在低资源场景下。具体性能数据未知,但摘要强调了其超越了最先进的LLM和机器翻译模型。此外,FuxiMT展现出卓越的零样本翻译能力,表明其具有很强的泛化能力和潜力。
🎯 应用场景
FuxiMT可应用于各种多语言沟通场景,例如国际会议同声传译、跨境电商商品描述翻译、多语言文档自动翻译等。尤其在低资源语言对的翻译中,FuxiMT具有显著优势,有助于促进不同语言文化之间的交流与理解。未来,该模型有望进一步扩展到更多语言和领域,成为全球化交流的重要工具。
📄 摘要(原文)
In this paper, we present FuxiMT, a novel Chinese-centric multilingual machine translation model powered by a sparsified large language model (LLM). We adopt a two-stage strategy to train FuxiMT. We first pre-train the model on a massive Chinese corpus and then conduct multilingual fine-tuning on a large parallel dataset encompassing 65 languages. FuxiMT incorporates Mixture-of-Experts (MoEs) and employs a curriculum learning strategy for robust performance across various resource levels. Experimental results demonstrate that FuxiMT significantly outperforms strong baselines, including state-of-the-art LLMs and machine translation models, particularly under low-resource scenarios. Furthermore, FuxiMT exhibits remarkable zero-shot translation capabilities for unseen language pairs, indicating its potential to bridge communication gaps where parallel data are scarce or unavailable.