Rethinking Multilingual Continual Pretraining: Data Mixing for Adapting LLMs Across Languages and Resources

📄 arXiv: 2504.04152v2 📥 PDF

作者: Zihao Li, Shaoxiong Ji, Hengyu Luo, Jörg Tiedemann

分类: cs.CL

发布日期: 2025-04-05 (更新: 2025-10-08)

备注: COLM 2025


💡 一句话要点

研究多语言持续预训练中数据混合策略,提升LLM跨语言和资源适应性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语言学习 持续预训练 低资源语言 数据混合 语言模型

📋 核心要点

  1. 现有LLM在不同语言表现差异大,低资源语言被边缘化,多语言持续预训练(CPT)是潜在解决方案。
  2. 论文系统评估单语、双语和代码增强数据在CPT中的效果,旨在找到最佳数据混合策略。
  3. 实验发现双语CPT易语言混合,代码数据提升分类但降低生成,语言分类与实际效果不符。

📝 摘要(中文)

大型语言模型(LLMs)在不同语言上的表现存在显著差异,高资源语言受益较多,而代表性不足的语言则被边缘化。持续预训练(CPT)已成为解决这种不平衡的一种有前景的方法,但单语、双语和代码增强数据策略的相对有效性仍不清楚。本研究系统地评估了36种CPT配置,涉及三种多语言基础模型,跨越30多种被归类为利他、自私和停滞的语言,涵盖各种资源水平。我们的发现揭示了三个主要见解:(1)双语CPT提高了多语言分类,但经常导致生成过程中的语言混合问题。(2)在CPT期间包含编程代码数据始终提高多语言分类准确性,尤其有利于低资源语言,但引入了略微降低生成质量的权衡。(3)与先前的工作相反,我们观察到语言分类与其对跨语言迁移的影响存在显著偏差:被归类为利他的语言通常会对相关语言产生负面影响,自私的语言表现出有条件和依赖于配置的行为,停滞的语言在某些CPT条件下表现出令人惊讶的适应性。这些细微的相互作用强调了多语言表征学习的复杂性,突出了对可推广的语言分类进行系统研究的重要性,以指导未来的多语言CPT策略。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在不同语言上的性能不平衡问题,特别是低资源语言的性能瓶颈。现有方法,如直接在多语言数据上训练LLM,往往偏向于高资源语言,导致低资源语言的性能提升有限。持续预训练(CPT)是一种有前景的方法,但如何选择合适的数据混合策略(单语、双语、代码数据)以最大化低资源语言的性能提升,同时避免对高资源语言产生负面影响,是一个尚未解决的问题。

核心思路:论文的核心思路是通过系统性的实验评估不同的数据混合策略在CPT中的效果,并深入分析不同语言之间的相互作用。通过对30多种语言进行分类(利他、自私、停滞),并观察它们在不同CPT配置下的表现,论文旨在揭示哪些数据混合策略能够有效地提升低资源语言的性能,同时避免语言混合等问题。论文强调了对语言进行系统分类的重要性,以便更好地指导未来的多语言CPT策略。

技术框架:论文的技术框架主要包括以下几个步骤:1)选择三种多语言基础模型;2)构建包含单语、双语和代码数据的CPT数据集;3)设计36种不同的CPT配置,涵盖不同的数据混合策略;4)在30多种语言上进行实验,评估不同CPT配置的性能;5)分析实验结果,揭示不同数据混合策略和语言之间的相互作用。

关键创新:论文的关键创新在于:1)系统性地评估了多种数据混合策略在多语言CPT中的效果,为选择最佳数据混合策略提供了经验依据;2)揭示了双语CPT可能导致语言混合问题,并提出了使用代码数据来提升低资源语言性能的权衡;3)挑战了现有的语言分类方法,发现语言的实际表现与其分类之间存在偏差,强调了对语言进行系统分类的重要性。

关键设计:论文的关键设计包括:1)精心设计的CPT数据集,包含单语、双语和代码数据,以评估不同数据类型的影响;2)多样化的CPT配置,涵盖不同的数据混合比例和训练策略;3)全面的实验评估,在多种语言和任务上评估模型性能,以确保结果的可靠性;4)深入的分析,揭示不同数据混合策略和语言之间的复杂相互作用。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,双语CPT虽然提高了多语言分类性能,但易导致语言混合;加入代码数据能显著提升低资源语言的分类准确率,但略微降低生成质量。此外,研究发现现有语言分类方法与实际效果存在偏差,例如“利他”语言可能对相关语言产生负面影响。这些发现为多语言CPT策略提供了重要参考。

🎯 应用场景

该研究成果可应用于提升低资源语言的机器翻译、文本生成、信息检索等任务的性能。通过选择合适的数据混合策略进行持续预训练,可以有效缩小不同语言之间的性能差距,促进多语言自然语言处理的发展,并为全球范围内的信息交流提供更好的支持。未来的研究可以进一步探索更有效的语言分类方法和数据混合策略,以实现更高效的多语言持续预训练。

📄 摘要(原文)

Large Language Models (LLMs) exhibit significant disparities in performance across languages, primarily benefiting high-resource languages while marginalizing underrepresented ones. Continual Pretraining (CPT) has emerged as a promising approach to address this imbalance, although the relative effectiveness of monolingual, bilingual, and code-augmented data strategies remains unclear. This study systematically evaluates 36 CPT configurations involving three multilingual base models, across 30+ languages categorized as altruistic, selfish, and stagnant, spanning various resource levels. Our findings reveal three major insights: (1) Bilingual CPT improves multilingual classification but often causes language mixing issues during generation. (2) Including programming code data during CPT consistently enhances multilingual classification accuracy, particularly benefiting low-resource languages, but introduces a trade-off by slightly degrading generation quality. (3) Contrary to prior work, we observe substantial deviations from language classifications according to their impact on cross-lingual transfer: Languages classified as altruistic often negatively affect related languages, selfish languages show conditional and configuration-dependent behavior, and stagnant languages demonstrate surprising adaptability under certain CPT conditions. These nuanced interactions emphasize the complexity of multilingual representation learning, underscoring the importance of systematic studies on generalizable language classification to inform future multilingual CPT strategies.