Multilingual Machine Translation with Open Large Language Models at Practical Scale: An Empirical Study

📄 arXiv: 2502.02481v4 📥 PDF

作者: Menglong Cui, Pengzhi Gao, Wei Liu, Jian Luan, Bin Wang

分类: cs.CL

发布日期: 2025-02-04 (更新: 2025-02-24)

备注: Accept to NAACL2025 Main Conference


💡 一句话要点

提出PFMS数据混合策略,GemmaX2-28在多语言机器翻译上达到领先水平。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语言机器翻译 大型语言模型 持续预训练 数据混合策略 开源模型

📋 核心要点

  1. 现有开源LLM在多语言翻译能力上仍有提升空间,尤其是在参数量较小的模型上。
  2. 论文提出Parallel-First Monolingual-Second (PFMS)数据混合策略,优化持续预训练过程,提升翻译性能。
  3. 实验表明,GemmaX2-28在28种语言上超越了TowerInstruct和XALMA等SOTA模型,并与Google Translate和GPT-4-turbo性能相当。

📝 摘要(中文)

大型语言模型(LLMs)在多语言能力方面表现出持续的改进,即使是小规模的开源模型也展示了快速的性能提升。本文系统地探索了参数小于100亿的开源LLM处理多语言机器翻译(MT)任务的能力。我们对六个流行的LLM进行了全面的评估,发现像Gemma2-9B这样的模型表现出令人印象深刻的多语言翻译能力。然后,我们在持续预训练阶段引入了Parallel-First Monolingual-Second (PFMS)数据混合策略,以进一步提高MT性能,并提出了GemmaX2-28,这是一个9B模型,在28种语言中实现了顶级的多语言翻译性能。具体来说,GemmaX2-28始终优于最先进(SOTA)的模型,如TowerInstruct和XALMA,并实现了与Google Translate和GPT-4-turbo相媲美的性能。

🔬 方法详解

问题定义:论文旨在提升开源小规模LLM在多语言机器翻译任务上的性能。现有方法,尤其是直接使用通用预训练模型进行翻译,在特定语言对上的表现可能不佳,且缺乏针对翻译任务的优化。

核心思路:论文的核心思路是通过一种新的数据混合策略(PFMS)来优化模型的持续预训练过程。PFMS策略旨在更好地平衡平行语料和单语语料的使用,从而提升模型的多语言翻译能力。这样设计的目的是让模型在学习不同语言之间的对应关系的同时,也能充分利用单语数据来提升语言理解能力。

技术框架:整体框架包括:1) 选择合适的开源LLM作为基础模型(如Gemma2-9B);2) 使用PFMS策略进行持续预训练;3) 在多语言翻译数据集上进行评估。主要模块包括数据预处理模块、模型训练模块和评估模块。数据预处理模块负责准备平行语料和单语语料,并按照PFMS策略进行混合。模型训练模块使用混合后的数据对基础模型进行持续预训练。评估模块使用标准的多语言翻译数据集(如WMT)来评估模型的翻译性能。

关键创新:最重要的技术创新点是Parallel-First Monolingual-Second (PFMS)数据混合策略。与传统的随机混合策略不同,PFMS策略首先使用平行语料进行训练,然后再使用单语语料进行训练。这种策略的目的是让模型首先学习不同语言之间的对应关系,然后再利用单语数据来提升语言理解能力。这种策略的本质区别在于训练数据的组织方式,旨在更好地利用平行语料和单语语料的互补性。

关键设计:PFMS策略的关键设计在于平行语料和单语语料的比例以及训练的顺序。具体来说,论文可能探索了不同的平行语料和单语语料比例,以及不同的训练轮数。此外,论文可能还探索了不同的损失函数和优化器,以进一步提升模型的翻译性能。具体的参数设置和网络结构等技术细节未知,需要查阅论文全文。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GemmaX2-28模型在28种语言的翻译任务中,性能超越了TowerInstruct和XALMA等先进模型,并达到了与Google Translate和GPT-4-turbo相竞争的水平。这一结果表明,通过PFMS数据混合策略进行持续预训练,可以显著提升开源小规模LLM的多语言翻译能力。

🎯 应用场景

该研究成果可应用于低资源语言的机器翻译、跨语言信息检索、多语言对话系统等领域。通过提升开源小规模LLM的多语言翻译能力,可以降低机器翻译的使用门槛,促进不同语言之间的交流与合作,并为全球化背景下的信息共享提供更便捷的工具。

📄 摘要(原文)

Large language models (LLMs) have shown continuously improving multilingual capabilities, and even small-scale open-source models have demonstrated rapid performance enhancement. In this paper, we systematically explore the abilities of open LLMs with less than ten billion parameters to handle multilingual machine translation (MT) tasks. We conduct comprehensive evaluations on six popular LLMs and find that models like Gemma2-9B exhibit impressive multilingual translation capabilities. We then introduce the Parallel-First Monolingual-Second (PFMS) data mixing strategy in the continual pretraining stage to further enhance the MT performance and present GemmaX2-28, a 9B model achieving top-tier multilingual translation performance across 28 languages. Specifically, GemmaX2-28 consistently outperforms the state-of-the-art (SOTA) models such as TowerInstruct and XALMA and achieves competitive performance with Google Translate and GPT-4-turbo.