Code-Switching In-Context Learning for Cross-Lingual Transfer of Large Language Models

作者: Haneul Yoo, Jiho Jin, Kyunghyun Cho, Alice Oh

分类: cs.CL, cs.AI

发布日期: 2025-10-07

💡 一句话要点

提出代码切换上下文学习(CSICL)，提升大语言模型跨语言迁移能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 跨语言学习 上下文学习 代码切换 大语言模型 多语言处理

📋 核心要点

现有跨语言上下文学习方法依赖单语演示，未能有效缓解LLM中存在的“翻译障碍”。
提出CSICL方法，通过在上下文学习示例中逐步从目标语言过渡到英语，显式引导模型进行推理。
实验表明，CSICL在多种语言和数据集上优于现有方法，尤其在低资源场景下提升显著。

📝 摘要（中文）

大型语言模型(LLMs)展现出强大的多语言能力，但它们依赖英语作为潜在表示，这造成了一种翻译障碍，即推理隐式地依赖于内部翻译成英语。当这个过程失败时，非英语语言的性能会急剧下降，限制了基于LLM的应用程序的包容性。现有的跨语言上下文学习(X-ICL)方法主要利用单语演示，通常无法缓解这种障碍，反而会加强它。本文介绍代码切换上下文学习(CSICL)，这是一种简单而有效的提示策略，在演示和指令中逐步从目标语言过渡到英语，以促进它们在英语中的潜在推理。通过显式地构建通过受控代码切换的推理过程，CSICL充当隐式语言桥梁，增强跨语言对齐并减少对翻译障碍的依赖。我们在4个LLM、6个数据集和10种语言上进行了广泛的实验，涵盖了知识密集型和推理导向型领域。结果表明，CSICL始终优于X-ICL基线，在目标语言和未见语言中分别实现了3.1%p和1.9%p的增益。在低资源设置中，改进更为显著，在目标语言和未见语言中分别获得了14.7%和5.3%的增益。这些发现确立了代码切换作为一种原则性和鲁棒性的方法，用于克服推理过程中的翻译障碍，从而使LLM朝着更公平和有效的多语言系统发展。

🔬 方法详解

问题定义：现有的大型语言模型在跨语言任务中表现出对英语的依赖性，即“翻译障碍”。模型在处理非英语语言时，倾向于先将其翻译成英语再进行推理，这导致非英语语言的性能下降，尤其是在低资源语言中。现有的跨语言上下文学习方法（X-ICL）主要使用单语示例，无法有效解决这个问题，甚至可能加剧对英语的依赖。

核心思路：CSICL的核心思路是通过在上下文学习的示例中引入代码切换，逐步引导模型从目标语言过渡到英语，从而显式地构建推理过程。这种方法旨在创建一个隐式的语言桥梁，促进跨语言对齐，并减少模型对内部翻译的依赖。通过控制代码切换的比例，可以更好地利用模型在英语上的知识和推理能力。

技术框架：CSICL方法主要应用于上下文学习的提示构建阶段。具体流程如下：首先，选择一个目标语言的任务。然后，构建包含代码切换的上下文学习示例，这些示例从目标语言开始，逐步过渡到英语。指令也可以采用类似的代码切换方式。最后，将构建好的提示输入到大型语言模型中进行推理。

关键创新：CSICL的关键创新在于其显式地利用代码切换来引导模型的推理过程。与传统的X-ICL方法不同，CSICL不是简单地提供单语示例，而是通过逐步过渡到英语，帮助模型更好地利用其在英语上的知识和推理能力。这种方法可以有效地减少模型对内部翻译的依赖，从而提高跨语言任务的性能。

关键设计：CSICL的关键设计在于代码切换的比例和方式。一种常见的设计是线性地增加英语的比例，例如，从完全目标语言到完全英语的过渡。另一种设计是根据任务的复杂程度动态地调整代码切换的比例。此外，指令的设计也很重要，指令也可以采用类似的代码切换方式，以进一步引导模型的推理过程。

🖼️ 关键图片

📊 实验亮点

实验结果表明，CSICL在多个数据集和语言上都优于现有的X-ICL方法。在目标语言和未见语言上，CSICL分别取得了3.1%p和1.9%p的性能提升。在低资源场景下，提升更为显著，目标语言和未见语言分别提升了14.7%和5.3%。这些结果表明，CSICL是一种有效且鲁棒的跨语言迁移学习方法。

🎯 应用场景

CSICL方法可应用于各种跨语言自然语言处理任务，例如机器翻译、跨语言问答、跨语言文本分类等。该方法尤其适用于低资源语言，可以显著提升模型在这些语言上的性能。通过减少对英语的依赖，CSICL有助于构建更公平和有效的多语言系统，促进全球范围内的信息共享和交流。

📄 摘要（原文）

While large language models (LLMs) exhibit strong multilingual abilities, their reliance on English as latent representations creates a translation barrier, where reasoning implicitly depends on internal translation into English. When this process fails, performance in non-English languages deteriorates sharply, limiting the inclusiveness of LLM-based applications. Existing cross-lingual in-context learning (X-ICL) methods primarily leverage monolingual demonstrations, often failing to mitigate this barrier and instead reinforcing it. In this work, we introduce code-switching in-context learning (CSICL), a simple yet effective prompting strategy that progressively transitions from a target language to English within demonstrations and instruction to facilitate their latent reasoning in English. By explicitly scaffolding the reasoning process through controlled code-switching, CSICL acts as an implicit linguistic bridge that enhances cross-lingual alignment and reduces reliance on the translation barrier. We conduct extensive experiments across 4 LLMs, 6 datasets, and 10 languages, spanning both knowledge-intensive and reasoning-oriented domains. Our results demonstrate that CSICL consistently outperforms X-ICL baselines, achieving gains of 3.1%p and 1.9%p in both target and unseen languages, respectively. The improvement is even more pronounced in low-resource settings, with gains of 14.7% in target and 5.3% in unseen languages. These findings establish code-switching as a principled and robust approach for overcoming the translation barrier during inference, moving LLMs toward more equitable and effective multilingual systems.

Code-Switching In-Context Learning for Cross-Lingual Transfer of Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理