Multilingual Pretraining Using a Large Corpus Machine-Translated from a Single Source Language
作者: Jiayi Wang, Yao Lu, Maurice Weber, Max Ryabinin, Yihong Chen, Raphael Tang, Pontus Stenetorp
分类: cs.CL
发布日期: 2024-10-31 (更新: 2024-11-06)
💡 一句话要点
利用单源高质量机器翻译数据预训练多语言大语言模型,显著提升非英语推理能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多语言预训练 机器翻译 大语言模型 非英语语言 数据增强 迁移学习 自然语言处理
📋 核心要点
- 现有大语言模型在非英语语种上表现不佳,主要原因是高质量多语言预训练语料库的匮乏。
- 论文核心思想是利用高质量的单语数据(英语)机器翻译成多种目标语言,构建多语言预训练数据集。
- 实验结果表明,使用该方法训练的CuatroLLM模型在非英语推理任务上超越了现有SOTA模型,且数据量更少。
📝 摘要(中文)
由于高质量多语言预训练语料库的质量和多样性存在差距,现有领先的大语言模型在非英语语言上的表现仍然不佳。本文发现,来自单一高质量源语言的机器翻译文本可以显著促进多语言大语言模型的预训练。我们将高质量的英语网络数据集FineWeb-Edu翻译成法语、德语和西班牙语,得到了一个包含3000亿token的数据集TransWeb-Edu,并在此数据集上从头开始预训练了一个13亿参数的模型CuatroLLM。在五个非英语推理任务中,CuatroLLM的表现与使用闭源数据训练的最新多语言模型(如Llama3.2和Gemma2)相匹配或超过了它们,尽管使用的数据量少了一个数量级,例如仅使用了Llama3.2训练token的约6%。我们进一步证明,通过额外特定领域的预训练(不到TransWeb-Edu的1%),CuatroLLM在多语言推理方面超越了现有技术水平。为了提高可重复性,我们以开放许可协议发布了我们的语料库、模型和训练流程,地址为hf.co/britllm/CuatroLLM。
🔬 方法详解
问题定义:现有的大语言模型在非英语语言上的性能相对较差,这主要是由于缺乏高质量和多样化的多语言预训练语料库。现有的多语言模型通常依赖于混合了各种质量和来源的数据,这限制了它们在特定非英语语言上的表现。
核心思路:论文的核心思路是利用高质量的单语数据(特别是英语)作为源语言,通过机器翻译生成多语言预训练数据。这种方法旨在利用高质量的英语资源,并将其转化为其他语言,从而提高多语言模型的性能。选择高质量的英语数据集作为翻译基础,可以确保翻译后的数据也具有较高的质量。
技术框架:该研究的主要流程包括以下几个步骤:1) 选择高质量的英语数据集FineWeb-Edu;2) 将该数据集机器翻译成法语、德语和西班牙语,生成TransWeb-Edu数据集;3) 使用TransWeb-Edu数据集从头开始预训练一个13亿参数的模型CuatroLLM;4) 在多个非英语推理任务上评估CuatroLLM的性能;5) 进行额外的领域特定预训练,进一步提升模型性能。
关键创新:该研究的关键创新在于利用机器翻译技术,从单一高质量的源语言(英语)生成多语言预训练数据。与以往依赖混合质量和来源的多语言数据的方法不同,该方法能够有效地利用高质量的单语资源,并将其转化为其他语言的知识。此外,该研究还证明了少量领域特定预训练可以显著提升模型在特定任务上的性能。
关键设计:该研究的关键设计包括:1) 选择FineWeb-Edu作为高质量的英语数据集;2) 使用高质量的机器翻译系统将英语数据翻译成法语、德语和西班牙语;3) 使用3000亿token的TransWeb-Edu数据集进行预训练;4) 使用1.3B参数的模型架构;5) 在五个非英语推理任务上进行评估,并与现有SOTA模型进行比较;6) 使用少量领域特定数据进行额外的预训练。
🖼️ 关键图片
📊 实验亮点
CuatroLLM在五个非英语推理任务中,与使用闭源数据训练的Llama3.2和Gemma2等SOTA模型性能相当甚至超越,但训练数据量仅为Llama3.2的6%。通过额外不到1%的领域特定预训练,CuatroLLM在多语言推理方面超越了现有技术水平,证明了该方法的有效性。
🎯 应用场景
该研究成果可应用于构建更高效、更强大的多语言大语言模型,尤其是在资源匮乏的语言上。通过机器翻译高质量单语数据,可以降低多语言模型训练的成本和难度,促进跨语言信息交流和知识共享。该方法在机器翻译、跨语言信息检索、多语言内容生成等领域具有广泛的应用前景。
📄 摘要(原文)
English, as a very high-resource language, enables the pretraining of high-quality large language models (LLMs). The same cannot be said for most other languages, as leading LLMs still underperform for non-English languages, likely due to a gap in the quality and diversity of the available multilingual pretraining corpora. In this work, we find that machine-translated text from a single high-quality source language can contribute significantly to the pretraining of multilingual LLMs. We translate FineWeb-Edu, a high-quality English web dataset, into French, German, and Spanish, resulting in a final 300B-token dataset, which we call TransWeb-Edu, and pretrain a 1.3B-parameter model, CuatroLLM, from scratch on this dataset. Across five non-English reasoning tasks, we show that CuatroLLM matches or outperforms state-of-the-art multilingual models trained using closed data, such as Llama3.2 and Gemma2, despite using an order of magnitude less data, such as about 6% of the tokens used for Llama3.2's training. We further demonstrate that with additional domain-specific pretraining, amounting to less than 1% of TransWeb-Edu, CuatroLLM surpasses the state of the art in multilingual reasoning. To promote reproducibility, we release our corpus, models, and training pipeline under open licenses at hf.co/britllm/CuatroLLM.