Code-Switching In-Context Learning for Cross-Lingual Transfer of Large Language Models
作者: Haneul Yoo, Jiho Jin, Kyunghyun Cho, Alice Oh
分类: cs.CL, cs.AI
发布日期: 2025-10-07
💡 一句话要点
提出代码切换上下文学习(CSICL),提升大语言模型跨语言迁移能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 跨语言学习 上下文学习 代码切换 大语言模型 多语言处理
📋 核心要点
- 现有跨语言上下文学习方法依赖单语演示,未能有效缓解LLM中存在的“翻译障碍”。
- 提出CSICL方法,通过在上下文学习示例中逐步从目标语言过渡到英语,显式引导模型进行推理。
- 实验表明,CSICL在多种语言和数据集上优于现有方法,尤其在低资源场景下提升显著。
📝 摘要(中文)
大型语言模型(LLMs)展现出强大的多语言能力,但它们依赖英语作为潜在表示,这造成了一种翻译障碍,即推理隐式地依赖于内部翻译成英语。当这个过程失败时,非英语语言的性能会急剧下降,限制了基于LLM的应用程序的包容性。现有的跨语言上下文学习(X-ICL)方法主要利用单语演示,通常无法缓解这种障碍,反而会加强它。本文介绍代码切换上下文学习(CSICL),这是一种简单而有效的提示策略,在演示和指令中逐步从目标语言过渡到英语,以促进它们在英语中的潜在推理。通过显式地构建通过受控代码切换的推理过程,CSICL充当隐式语言桥梁,增强跨语言对齐并减少对翻译障碍的依赖。我们在4个LLM、6个数据集和10种语言上进行了广泛的实验,涵盖了知识密集型和推理导向型领域。结果表明,CSICL始终优于X-ICL基线,在目标语言和未见语言中分别实现了3.1%p和1.9%p的增益。在低资源设置中,改进更为显著,在目标语言和未见语言中分别获得了14.7%和5.3%的增益。这些发现确立了代码切换作为一种原则性和鲁棒性的方法,用于克服推理过程中的翻译障碍,从而使LLM朝着更公平和有效的多语言系统发展。
🔬 方法详解
问题定义:现有的大型语言模型在跨语言任务中表现出对英语的依赖性,即“翻译障碍”。模型在处理非英语语言时,倾向于先将其翻译成英语再进行推理,这导致非英语语言的性能下降,尤其是在低资源语言中。现有的跨语言上下文学习方法(X-ICL)主要使用单语示例,无法有效解决这个问题,甚至可能加剧对英语的依赖。
核心思路:CSICL的核心思路是通过在上下文学习的示例中引入代码切换,逐步引导模型从目标语言过渡到英语,从而显式地构建推理过程。这种方法旨在创建一个隐式的语言桥梁,促进跨语言对齐,并减少模型对内部翻译的依赖。通过控制代码切换的比例,可以更好地利用模型在英语上的知识和推理能力。
技术框架:CSICL方法主要应用于上下文学习的提示构建阶段。具体流程如下:首先,选择一个目标语言的任务。然后,构建包含代码切换的上下文学习示例,这些示例从目标语言开始,逐步过渡到英语。指令也可以采用类似的代码切换方式。最后,将构建好的提示输入到大型语言模型中进行推理。
关键创新:CSICL的关键创新在于其显式地利用代码切换来引导模型的推理过程。与传统的X-ICL方法不同,CSICL不是简单地提供单语示例,而是通过逐步过渡到英语,帮助模型更好地利用其在英语上的知识和推理能力。这种方法可以有效地减少模型对内部翻译的依赖,从而提高跨语言任务的性能。
关键设计:CSICL的关键设计在于代码切换的比例和方式。一种常见的设计是线性地增加英语的比例,例如,从完全目标语言到完全英语的过渡。另一种设计是根据任务的复杂程度动态地调整代码切换的比例。此外,指令的设计也很重要,指令也可以采用类似的代码切换方式,以进一步引导模型的推理过程。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CSICL在多个数据集和语言上都优于现有的X-ICL方法。在目标语言和未见语言上,CSICL分别取得了3.1%p和1.9%p的性能提升。在低资源场景下,提升更为显著,目标语言和未见语言分别提升了14.7%和5.3%。这些结果表明,CSICL是一种有效且鲁棒的跨语言迁移学习方法。
🎯 应用场景
CSICL方法可应用于各种跨语言自然语言处理任务,例如机器翻译、跨语言问答、跨语言文本分类等。该方法尤其适用于低资源语言,可以显著提升模型在这些语言上的性能。通过减少对英语的依赖,CSICL有助于构建更公平和有效的多语言系统,促进全球范围内的信息共享和交流。
📄 摘要(原文)
While large language models (LLMs) exhibit strong multilingual abilities, their reliance on English as latent representations creates a translation barrier, where reasoning implicitly depends on internal translation into English. When this process fails, performance in non-English languages deteriorates sharply, limiting the inclusiveness of LLM-based applications. Existing cross-lingual in-context learning (X-ICL) methods primarily leverage monolingual demonstrations, often failing to mitigate this barrier and instead reinforcing it. In this work, we introduce code-switching in-context learning (CSICL), a simple yet effective prompting strategy that progressively transitions from a target language to English within demonstrations and instruction to facilitate their latent reasoning in English. By explicitly scaffolding the reasoning process through controlled code-switching, CSICL acts as an implicit linguistic bridge that enhances cross-lingual alignment and reduces reliance on the translation barrier. We conduct extensive experiments across 4 LLMs, 6 datasets, and 10 languages, spanning both knowledge-intensive and reasoning-oriented domains. Our results demonstrate that CSICL consistently outperforms X-ICL baselines, achieving gains of 3.1%p and 1.9%p in both target and unseen languages, respectively. The improvement is even more pronounced in low-resource settings, with gains of 14.7% in target and 5.3% in unseen languages. These findings establish code-switching as a principled and robust approach for overcoming the translation barrier during inference, moving LLMs toward more equitable and effective multilingual systems.