Multilingual Language Model Pretraining using Machine-translated Data
作者: Jiayi Wang, Yao Lu, Maurice Weber, Max Ryabinin, David Adelani, Yihong Chen, Raphael Tang, Pontus Stenetorp
分类: cs.CL
发布日期: 2025-02-18
💡 一句话要点
利用机器翻译数据预训练多语言模型,显著提升非英语语言性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多语言模型 机器翻译 预训练 低资源语言 自然语言处理
📋 核心要点
- 现有LLM在非英语语言上表现不佳,主要原因是多语言预训练语料库的质量和多样性不足。
- 该论文提出利用机器翻译技术,将高质量的英语数据集翻译成多种目标语言,构建大规模多语言预训练语料库。
- 实验结果表明,使用该方法预训练的模型在多个非英语推理任务上,性能超越或匹配了现有先进模型。
📝 摘要(中文)
高质量大型语言模型(LLM)的预训练通常依赖于如英语等高资源语言。然而,由于多语言预训练语料库的质量和多样性存在差距,LLM在非英语语言上的表现仍然欠佳。本文发现,来自单一高质量源语言的机器翻译文本可以显著提升多语言LLM的预训练质量。我们将高质量的英语网络数据集FineWeb-Edu翻译成九种语言,得到了一个包含1.7万亿token的数据集TransWebEdu,并在此数据集上从头预训练了一个13亿参数的模型TransWebLLM。在九个非英语推理任务中,TransWebLLM的表现与使用闭源数据训练的先进多语言模型(如Llama3.2、Qwen2.5和Gemma)相匹配或超过它们,尽管使用的数据量少一个数量级。我们证明,添加不到5%的TransWebEdu作为特定领域的预训练数据,可以在阿拉伯语、意大利语、印度尼西亚语、斯瓦希里语和威尔士语的理解和常识推理任务中达到新的state-of-the-art。为了促进可重复性,我们以开源倡议批准的许可发布了我们的语料库、模型和训练流程。
🔬 方法详解
问题定义:论文旨在解决多语言LLM在非英语语言上表现欠佳的问题。现有方法依赖于有限且质量参差不齐的多语言语料库,导致模型在这些语言上的理解和推理能力不足。现有方法的痛点在于缺乏高质量、大规模的非英语预训练数据。
核心思路:论文的核心思路是利用机器翻译技术,将高质量的单语(英语)数据集扩展到多种目标语言。通过这种方式,可以快速构建一个大规模、高质量的多语言预训练语料库,从而提升LLM在非英语语言上的性能。选择英语作为源语言是因为其拥有丰富的网络资源和高质量的文本数据。
技术框架:整体流程包括以下几个主要步骤:1) 选择高质量的英语网络数据集(FineWeb-Edu)。2) 使用机器翻译系统将该数据集翻译成九种目标语言。3) 将翻译后的数据集合并成一个大规模的多语言预训练语料库(TransWebEdu)。4) 在TransWebEdu上从头预训练一个LLM模型(TransWebLLM)。5) 在多个非英语推理任务上评估TransWebLLM的性能。
关键创新:该论文的关键创新在于证明了机器翻译数据在多语言LLM预训练中的有效性。与以往依赖于原生多语言数据的方法不同,该论文利用机器翻译技术,以较低的成本构建了大规模、高质量的多语言语料库。此外,该论文还开源了语料库、模型和训练流程,促进了研究的可重复性。
关键设计:论文的关键设计包括:1) 选择高质量的英语数据集FineWeb-Edu作为翻译的源数据。2) 使用先进的机器翻译系统保证翻译质量。3) 构建了一个包含1.7万亿token的大规模多语言语料库TransWebEdu。4) 预训练了一个13亿参数的LLM模型TransWebLLM。5) 在多个具有挑战性的非英语推理任务上评估模型性能,并与现有先进模型进行比较。
🖼️ 关键图片
📊 实验亮点
TransWebLLM在九个非英语推理任务中,性能与Llama3.2、Qwen2.5和Gemma等先进模型相匹配或超过它们,尽管使用的数据量少一个数量级。添加不到5%的TransWebEdu作为特定领域的预训练数据,可以在阿拉伯语、意大利语、印度尼西亚语、斯瓦希里语和威尔士语的理解和常识推理任务中达到新的state-of-the-art。
🎯 应用场景
该研究成果可广泛应用于多语言自然语言处理领域,例如跨语言信息检索、机器翻译、多语言对话系统等。通过提升LLM在非英语语言上的性能,可以促进全球范围内的信息共享和交流,并为低资源语言提供更好的技术支持。该方法也为其他语言模型的预训练提供了新的思路。
📄 摘要(原文)
High-resource languages such as English, enables the pretraining of high-quality large language models (LLMs). The same can not be said for most other languages as LLMs still underperform for non-English languages, likely due to a gap in the quality and diversity of the available multilingual pretraining corpora. In this work, we find that machine-translated texts from a single high-quality source language can contribute significantly to the pretraining quality of multilingual LLMs. We translate FineWeb-Edu, a high-quality English web dataset, into nine languages, resulting in a 1.7-trillion-token dataset, which we call TransWebEdu and pretrain a 1.3B-parameter model, TransWebLLM, from scratch on this dataset. Across nine non-English reasoning tasks, we show that TransWebLLM matches or outperforms state-of-the-art multilingual models trained using closed data, such as Llama3.2, Qwen2.5, and Gemma, despite using an order of magnitude less data. We demonstrate that adding less than 5% of TransWebEdu as domain-specific pretraining data sets a new state-of-the-art in Arabic, Italian, Indonesian, Swahili, and Welsh understanding and commonsense reasoning tasks. To promote reproducibility, we release our corpus, models, and training pipeline under Open Source Initiative-approved licenses.