ReasonXL: Shifting LLM Reasoning Language Without Sacrificing Performance

📄 arXiv: 2604.12378v1 📥 PDF

作者: Daniil Gurgurov, Tom Röhr, Sebastian von Rohrscheidt, Josef van Genabith, Alexander Löser, Simon Ostermann

分类: cs.CL

发布日期: 2026-04-14

备注: Under review


💡 一句话要点

ReasonXL:通过迁移LLM推理语言,在不牺牲性能的前提下实现多语言推理

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语言推理 大型语言模型 监督微调 强化学习 跨语言迁移 表征分析 ReasonXL数据集

📋 核心要点

  1. 现有LLM主要以英语进行推理,导致非英语场景下存在根本性不匹配。
  2. ReasonXL通过构建大规模多语言推理数据集,并结合SFT和RLVR,使LLM能够以目标语言进行推理。
  3. 实验表明,该方法在保持或超过基线性能的同时,最小化了通用知识损失,并保留了跨语言迁移能力。

📝 摘要(中文)

尽管大型语言模型(LLMs)在多语言能力方面取得了进展,但大多数LLMs在训练中仍然以英语为中心,尤其是在推理过程的生成上。即使在处理非英语问题时,这些模型也主要以英语进行推理,这为非英语使用场景带来了根本性的不匹配。本文通过三个贡献直接解决了这一差距。首先,我们引入了ReasonXL,这是第一个大规模并行语料库,包含跨越五种欧洲语言(英语、德语、法语、意大利语和西班牙语)的跨领域推理轨迹,每种语言超过两百万个对齐样本,每个样本包含提示、推理轨迹和最终输出,从而能够直接监督特定语言的推理。其次,使用ReasonXL,我们证明了LLMs可以通过一个简单的两阶段流程进行调整,完全以所需的目标语言进行推理,该流程包括监督微调(SFT)和使用可验证奖励的强化学习(RLVR)。由此产生的模型匹配或超过了基线性能,同时在通用知识方面的损失最小,并广泛保留了跨语言迁移能力。第三,我们对这种调整进行了广泛的表征分析,发现模型深度上存在明显的功能划分:早期层包含一个因果决定语言身份的激活瓶颈,而上层则集中了由调整驱动的权重和激活变化。我们进一步发现,与SFT相比,RLVR以更小的参数更新实现了与基础模型更大的行为差异,这表明尽管权重更新少得多,但表征重定向效率更高。

🔬 方法详解

问题定义:现有大型语言模型(LLMs)在处理非英语任务时,通常仍然使用英语进行推理,这导致了在非英语环境下的应用效果不佳。现有的多语言LLM虽然具备一定的多语言能力,但其推理过程仍然以英语为中心,无法充分利用目标语言的特性进行推理,造成性能瓶颈。

核心思路:本文的核心思路是通过构建一个大规模的、多语言的推理数据集(ReasonXL),并利用该数据集对LLM进行微调,使其能够直接以目标语言进行推理。通过监督微调(SFT)和强化学习(RLVR)相结合的方式,引导模型学习特定语言的推理模式,从而提高模型在非英语环境下的推理能力。

技术框架:该方法主要包含两个阶段:监督微调(SFT)和强化学习与可验证奖励(RLVR)。首先,使用ReasonXL数据集对LLM进行监督微调,使模型初步具备以目标语言进行推理的能力。然后,利用强化学习,通过可验证的奖励信号,进一步优化模型的推理过程,使其更加符合目标语言的推理习惯。整个流程旨在使模型在目标语言环境下达到最佳的推理性能。

关键创新:该方法的关键创新在于构建了ReasonXL数据集,这是一个大规模的、多语言的推理数据集,包含了多种语言的推理轨迹。此外,该方法还创新性地结合了监督微调和强化学习,通过可验证的奖励信号,引导模型学习特定语言的推理模式。这种结合使得模型能够更好地适应目标语言环境,从而提高推理性能。

关键设计:在监督微调阶段,使用交叉熵损失函数来优化模型,使其能够准确地生成目标语言的推理轨迹。在强化学习阶段,使用可验证的奖励信号,例如推理结果的正确性,来引导模型学习更有效的推理策略。此外,还对模型的不同层进行了表征分析,发现早期层主要负责语言身份的识别,而上层则负责推理过程的优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用ReasonXL进行微调的LLM在目标语言推理任务上达到了与英语推理相当甚至更高的性能。与基线模型相比,该方法在保持通用知识的同时,显著提高了目标语言的推理能力。此外,表征分析表明,强化学习阶段能够以更小的参数更新实现更大的行为改变,表明其具有更高的效率。

🎯 应用场景

该研究成果可广泛应用于多语言智能客服、跨语言信息检索、多语言机器翻译等领域。通过使LLM能够直接以目标语言进行推理,可以显著提高这些应用在非英语环境下的性能和用户体验。此外,该研究也为开发更通用、更高效的多语言LLM提供了新的思路。

📄 摘要(原文)

Despite advances in multilingual capabilities, most large language models (LLMs) remain English-centric in their training and, crucially, in their production of reasoning traces. Even when tasked with non-English problems, these models predominantly reason in English, creating a fundamental mismatch for non-English usage scenarios. We address this disparity directly with three contributions. (i) We introduce ReasonXL, the first large-scale parallel corpus of cross-domain reasoning traces spanning five European languages (English, German, French, Italian, and Spanish), with over two million aligned samples per language, each comprising prompts, reasoning traces, and final outputs, enabling direct supervision of language-specific reasoning. (ii) Using ReasonXL, we demonstrate that LLMs can be adapted to reason entirely in a desired target language, using a simple two-stage pipeline of supervised fine-tuning (SFT) followed by reinforcement learning with verifiable rewards (RLVR). The resulting models match or exceed baseline performance, with minimal loss in general knowledge and broadly preserved cross-lingual transfer. (iii) We conduct an extensive representational analysis of the adaptation and find a clear functional division across model depth: early layers contain an activation bottleneck that causally determines language identity, while upper layers concentrate the weight and activation changes driven by adaptation. We further find that RLVR achieves greater behavioral divergence from the base model with smaller parameter updates than SFT, suggesting a more efficient representational rerouting despite much smaller weight updates.