Rethinking the Multilingual Reasoning Gap with Layer Swap
作者: Maxence Lasbordes, Amélie Chatelain, Djamé Seddah
分类: cs.CL
发布日期: 2026-05-26
💡 一句话要点
提出Layer Swap方法,提升多语言大模型在非英语环境下的推理能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多语言推理 思维链 模型微调 知识迁移 Layer Swap
📋 核心要点
- 现有方法在非英语环境下进行推理时,依赖英语作为中间语言,导致原生语言推理能力下降。
- 论文提出Layer Swap方法,通过交换英语专家模型和原生专家模型的中间层,提升原生语言推理能力。
- 实验结果表明,Layer Swap有效缩小了原生推理差距,在保持目标语言CoT的同时,显著提升了性能。
📝 摘要(中文)
最近的推理大型语言模型(LLM)即使在非英语语言提示下,也主要以英语生成思维链(CoT)。先前的工作表明,强制CoT保持输入语言(“原生推理”)会显著降低性能,相比之下,允许模型先用英语推理,然后再用输入语言回答(“英语枢轴推理”)效果更好。然而,大多数关于原生推理差距的研究依赖于推理时干预或有限的母语训练数据。本文在大规模和可比较的监督下重新审视了这种比较。构建了跨六种语言(英语、法语、德语、西班牙语、中文和斯瓦希里语)的长期多语言推理数据集;在 exttt{Qwen/Qwen3-8B-Base}之上微调了原生和英语枢轴两种模式的专家模型,并在数学、科学、常识和代码方面进行了评估。在这种设置下,五种非英语语言的平均原生推理差距缩小到1.9-3.5%,远小于先前报告的差距。对原生专家的权重空间分析表明,中间层的微调更新是对齐的,而外层则存在差异。这表明存在一个主要与语言无关的推理核心,周围环绕着特定于语言的层。利用这种结构,本文引入了一种Layer Swap方法:将英语专家模型中更强的推理中间层转移到每个原生专家模型中,从而消除了五种非英语语言中的大部分原生推理差距,同时保留了目标语言的CoT。本文发布了所有模型和数据集。
🔬 方法详解
问题定义:现有的大型语言模型在处理非英语语言的推理任务时,通常会先将问题翻译成英语进行推理,然后再将答案翻译回目标语言。这种“英语枢轴推理”方法虽然有效,但牺牲了原生语言的推理能力。直接使用原生语言进行推理(“原生推理”)的性能通常远低于英语枢轴推理,这限制了模型在多语言环境下的应用。现有的研究往往依赖于推理时的干预或者有限的母语训练数据,无法充分挖掘原生语言推理的潜力。
核心思路:论文的核心思路是,大型语言模型中存在一个与语言无关的推理核心,而语言相关的知识主要集中在模型的浅层和深层。因此,可以通过将英语专家模型中更强的推理核心(中间层)迁移到原生语言专家模型中,来提升原生语言的推理能力,同时保留原生语言的CoT。
技术框架:整体框架包括以下几个步骤:1. 构建多语言推理数据集,涵盖多种语言和推理任务。2. 在预训练模型(Qwen/Qwen3-8B-Base)的基础上,分别微调英语枢轴专家模型和原生语言专家模型。3. 对微调后的模型进行权重空间分析,确定语言无关的推理核心所在的层。4. 使用Layer Swap方法,将英语专家模型的推理核心层替换到原生语言专家模型中。5. 在多语言推理数据集上评估Layer Swap后的模型性能。
关键创新:最重要的创新点在于发现了大型语言模型中存在语言无关的推理核心,并提出了Layer Swap方法,通过迁移英语专家模型的推理核心来提升原生语言的推理能力。与现有方法相比,Layer Swap方法能够在不牺牲原生语言CoT的情况下,显著提升推理性能。
关键设计:Layer Swap的关键设计在于确定需要交换的层。论文通过权重空间分析,发现中间层的微调更新是对齐的,而外层则存在差异。因此,选择交换中间层,以保留语言无关的推理能力,同时保留语言相关的知识。具体的层数选择可能需要根据不同的模型和数据集进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在五种非英语语言上,Layer Swap方法能够显著缩小原生推理差距,平均差距从之前的较高水平降低到1.9-3.5%。通过将英语专家模型的中间层迁移到原生专家模型中,在数学、科学、常识和代码等任务上都取得了显著的性能提升,同时保持了目标语言的CoT。
🎯 应用场景
该研究成果可应用于多语言智能客服、跨语言信息检索、多语言教育等领域。通过提升模型在非英语环境下的推理能力,可以更好地服务于全球用户,促进不同语言文化之间的交流与理解。未来,该方法可以推广到更多语言和任务,构建更加通用和强大的多语言智能系统。
📄 摘要(原文)
Recent reasoning Large Language Models produce a chain-of-thought (CoT) predominantly in English, even when prompted in non-English languages. Prior work suggests that forcing the CoT to remain in the input language (\emph{native reasoning}) substantially degrades performance relative to allowing the model to reason in English before answering in the input language (\emph{English-pivoted reasoning}). However, most studies of this native reasoning gap rely on inference-time interventions or limited native-language training data. We revisit this comparison at a larger scale and under comparable supervision. We construct long multilingual reasoning datasets across six languages (English, French, German, Spanish, Chinese and Swahili); fine-tune specialists in both native and English-pivoted regimes on top of \texttt{Qwen/Qwen3-8B-Base}, and evaluate across mathematics, science, general knowledge, and code. In this setting, the average native reasoning gap shrinks to 1.9--3.5\% across the five non-English languages, considerably smaller than previously reported. Weight-space analysis of the native specialists reveals aligned fine-tuning updates in the middle layers and divergence in the outer layers. This points to a largely language-agnostic reasoning core surrounded by language-specific layers. Exploiting this structure, we introduce a Layer Swap: transferring the English specialist's stronger reasoning mid-layers into each native specialist, closing most of the native reasoning gap across the five non-English languages while preserving CoT in the target language. We release all models and datasets.