Breaking Language Barriers: Cross-Lingual Continual Pre-Training at Scale
作者: Wenzhen Zheng, Wenbo Pan, Xu Xu, Libo Qin, Li Yue, Ming Zhou
分类: cs.CL
发布日期: 2024-07-02 (更新: 2024-10-02)
备注: 8 pages. Accepted at EMNLP 2024
💡 一句话要点
提出跨语言持续预训练方法,突破大语言模型的多语言扩展壁垒
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 持续预训练 跨语言学习 知识迁移 缩放定律
📋 核心要点
- 从头训练多语言LLM成本高昂,需要大量数据和算力,限制了其在小语种上的应用。
- 论文提出跨语言持续预训练(CPT)方法,利用现有LLM知识迁移到新语言,降低训练成本。
- 实验表明,CPT收敛更快,节省资源,并遵循扩展缩放定律,且对灾难性遗忘具有鲁棒性。
📝 摘要(中文)
近年来,大型语言模型(LLMs)在迈向通用人工智能方面取得了显著进展。然而,从头开始训练这些模型需要大量的计算资源和文本数据。本文探索了一种替代方法,即通过从现有的预训练LLM进行持续预训练(CPT)来构建一种新的语言的LLM,而不是使用随机初始化的参数。基于对40M到5B参数范围内的40种模型大小的并行实验,我们发现:1)CPT以可扩展的方式更快地收敛并节省大量资源;2)CPT遵循从Hoffmann等人(2022)推导出的扩展缩放定律,具有联合数据-参数缩放项;3)基于我们估计的缩放因子,CPT的计算最优数据-参数分配明显不同;4)大规模迁移的有效性受到训练持续时间和语言属性的影响,同时对数据重放具有鲁棒性,数据重放是一种有效缓解CPT中灾难性遗忘的方法。我们希望我们的发现能为研究界提供对大规模LLM可迁移性的更深入的见解。
🔬 方法详解
问题定义:论文旨在解决为新语言构建大型语言模型时,从头开始训练所需的大量计算资源和数据的问题。现有方法,即从随机初始化的参数开始训练,计算成本高昂,耗时漫长,并且可能无法充分利用已有的知识。
核心思路:论文的核心思路是利用已有的预训练大型语言模型(LLMs)作为起点,通过持续预训练(Continual Pre-Training, CPT)的方式,将这些LLMs的知识迁移到新的语言上。这种方法避免了从头开始训练,从而显著降低了计算成本和数据需求。
技术框架:整体框架包括以下几个主要阶段:1) 选择一个已有的、性能良好的预训练LLM作为基础模型。2) 准备目标语言的大规模文本数据。3) 使用目标语言的数据,在基础模型上进行持续预训练。4) 对预训练后的模型进行评估和微调,以进一步提升其在目标语言上的性能。
关键创新:最重要的技术创新点在于证明了跨语言的持续预训练是可行的,并且能够显著节省资源。此外,论文还发现CPT遵循一种扩展的缩放定律,并研究了数据重放等技术来缓解灾难性遗忘。
关键设计:论文的关键设计包括:1) 进行了大规模的实验,涵盖了40M到5B参数范围内的40种模型大小,以验证CPT的可扩展性。2) 研究了计算最优的数据-参数分配,发现CPT的最佳分配与从头训练不同。3) 探索了数据重放等技术,以缓解CPT中可能出现的灾难性遗忘问题。4) 分析了训练时长和语言属性对迁移学习效果的影响。
🖼️ 关键图片
📊 实验亮点
论文通过大规模实验证明了CPT的有效性,发现CPT收敛速度更快,资源消耗更少。实验结果表明,CPT遵循扩展的缩放定律,并且对数据重放具有鲁棒性,能够有效缓解灾难性遗忘。在不同模型大小上的实验验证了CPT的可扩展性。
🎯 应用场景
该研究成果可广泛应用于低资源语言的大语言模型构建,降低多语言LLM的开发成本,促进全球范围内的语言技术普及。同时,该方法也为其他领域的知识迁移提供了借鉴,例如将一个领域的模型迁移到另一个领域。
📄 摘要(原文)
In recent years, Large Language Models (LLMs) have made significant strides towards Artificial General Intelligence. However, training these models from scratch requires substantial computational resources and vast amounts of text data. In this paper, we explore an alternative approach to constructing an LLM for a new language by continually pretraining (CPT) from existing pretrained LLMs, instead of using randomly initialized parameters. Based on parallel experiments on 40 model sizes ranging from 40M to 5B parameters, we find that 1) CPT converges faster and saves significant resources in a scalable manner; 2) CPT adheres to an extended scaling law derived from Hoffmann et al. (2022) with a joint data-parameter scaling term; 3) The compute-optimal data-parameter allocation for CPT markedly differs based on our estimated scaling factors; 4) The effectiveness of transfer at scale is influenced by training duration and linguistic properties, while robust to data replaying, a method that effectively mitigates catastrophic forgetting in CPT. We hope our findings provide deeper insights into the transferability of LLMs at scale for the research community.