Code-Switching Curriculum Learning for Multilingual Transfer in LLMs

📄 arXiv: 2411.02460v2 📥 PDF

作者: Haneul Yoo, Cheonbok Park, Sangdoo Yun, Alice Oh, Hwaran Lee

分类: cs.CL, cs.AI, cs.LG

发布日期: 2024-11-04 (更新: 2025-06-11)

备注: To appear in Findings of ACL 2025


💡 一句话要点

提出代码切换课程学习(CSCL)方法,提升LLM多语言迁移能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 代码切换 课程学习 多语言迁移 大型语言模型 低资源语言 跨语言学习 预训练 语言模型

📋 核心要点

  1. 现有LLM由于预训练数据不平衡,在低资源语言上的性能显著下降,限制了其跨语言应用。
  2. 论文提出CSCL方法,模拟人类语言学习过程,通过token级、句子级代码切换和单语语料库的课程学习,提升LLM的跨语言迁移能力。
  3. 实验表明,CSCL在多种语言上有效提升了LLM的性能,尤其是在低资源语言上,并能减轻语言资源与安全对齐的虚假相关性。

📝 摘要(中文)

大型语言模型(LLM)在各种任务中表现出接近人类水平的性能,但由于预训练数据的不平衡,其性能在少数高资源语言之后急剧下降。受到人类第二语言习得过程的启发,特别是代码切换——对话中语言交替的做法——我们提出了代码切换课程学习(CSCL)来增强LLM的跨语言迁移能力。CSCL通过使用包含以下内容的课程逐步训练模型来模拟人类语言学习的阶段:1)token级别代码切换,2)句子级别代码切换,3)单语语料库。使用Qwen 2作为底层模型,我们证明了CSCL在提高韩语语言迁移方面的有效性,与单语持续预训练方法相比,取得了显著的性能提升。消融研究表明,token和句子级别的代码切换都显著增强了跨语言迁移,并且课程学习放大了这些效果。我们还将我们的发现扩展到包括日语(高资源)和印度尼西亚语(低资源)在内的各种语言,并使用另外两个模型(Gemma 2和Phi 3.5)。我们进一步表明,CSCL减轻了语言资源和安全对齐之间的虚假相关性,为LLM中更公平的语言迁移提供了一个稳健、高效的框架。我们观察到,CSCL对于难以获得高质量单语语料库进行语言迁移的低资源环境非常有效。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在跨语言迁移学习中,由于预训练数据偏向高资源语言而导致的低资源语言性能不佳的问题。现有方法,如单语持续预训练,在提升低资源语言性能方面效果有限,且可能存在语言资源与安全对齐之间的虚假相关性。

核心思路:论文的核心思路是模仿人类学习第二语言的过程,特别是代码切换现象,即在对话中自然地切换使用不同语言。通过逐步引入不同级别的代码切换,模型可以更好地学习不同语言之间的关联,从而提升跨语言迁移能力。这种课程学习的方式能够让模型从易到难地学习,避免直接暴露于复杂的跨语言环境中。

技术框架:CSCL包含三个主要阶段:1) Token-level code-switching:在token级别随机混合不同语言的token,迫使模型学习不同语言之间的细粒度关联。2) Sentence-level code-switching:在句子级别切换不同语言,模拟更自然的对话场景,让模型学习句子级别的跨语言依赖关系。3) Monolingual corpora:使用单语语料库进行微调,进一步提升模型在目标语言上的性能。整个流程采用课程学习的方式,按照token级、句子级、单语语料库的顺序逐步训练模型。

关键创新:该方法的核心创新在于将代码切换的思想引入到LLM的跨语言迁移学习中,并设计了一种课程学习框架。与传统的单语持续预训练方法相比,CSCL能够更有效地利用有限的资源,提升低资源语言的性能,并减轻语言资源与安全对齐之间的虚假相关性。

关键设计:在token-level code-switching阶段,需要确定不同语言token的混合比例。在sentence-level code-switching阶段,需要选择合适的句子分割方法和语言切换策略。课程学习的顺序和每个阶段的训练时长也需要仔细调整。损失函数通常采用标准的语言模型损失函数,例如交叉熵损失。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,CSCL方法在提升韩语语言迁移方面取得了显著的性能提升,优于单语持续预训练方法。消融研究表明,token和句子级别的代码切换都显著增强了跨语言迁移,并且课程学习放大了这些效果。此外,该方法在日语(高资源)和印度尼西亚语(低资源)等多种语言上均有效,并能减轻语言资源与安全对齐之间的虚假相关性。使用Qwen 2, Gemma 2 和 Phi 3.5等模型验证了该方法的有效性。

🎯 应用场景

该研究成果可应用于提升LLM在低资源语言上的性能,促进多语言自然语言处理的发展。例如,可以用于开发多语言聊天机器人、机器翻译系统和跨语言信息检索系统。此外,该方法还可以用于减轻语言资源与安全对齐之间的虚假相关性,提高LLM的公平性和安全性。未来,该方法有望应用于更多语言和任务,推动LLM的普及和应用。

📄 摘要(原文)

Large language models (LLMs) now exhibit near human-level performance in various tasks, but their performance drops drastically after a handful of high-resource languages due to the imbalance in pre-training data. Inspired by the human process of second language acquisition, particularly code-switching$\unicode{x2014}$the practice of language alternation in a conversation$\unicode{x2014}$we propose code-switching curriculum learning (CSCL) to enhance cross-lingual transfer for LLMs. CSCL mimics the stages of human language learning by progressively training models with a curriculum consisting of 1) token-level code-switching, 2) sentence-level code-switching, and 3) monolingual corpora. Using Qwen 2 as our underlying model, we demonstrate the efficacy of the CSCL in improving language transfer to Korean, achieving significant performance gains compared to monolingual continual pre-training methods. Ablation studies reveal that both token- and sentence-level code-switching significantly enhance cross-lingual transfer and that curriculum learning amplifies these effects. We also extend our findings into various languages, including Japanese (high-resource) and Indonesian (low-resource), and using two additional models (Gemma 2 and Phi 3.5). We further show that CSCL mitigates spurious correlations between language resources and safety alignment, presenting a robust, efficient framework for more equitable language transfer in LLMs. We observe that CSCL is effective for low-resource settings where high-quality, monolingual corpora for language transfer are hardly available.