Learning to Route Languages for Multilingual Policy Optimization
作者: Geyang Guo, Hiromi Wakaki, Yuki Mitsufuji, Alan Ritter, Wei Xu
分类: cs.CL
发布日期: 2026-05-25
备注: Accepted at ICML 2026
🔗 代码/项目: GITHUB
💡 一句话要点
提出语言路由策略优化(LRPO),提升多语言策略优化中跨语言知识的利用效率。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多语言策略优化 强化学习 语言路由 跨语言知识 多臂老虎机
📋 核心要点
- 现有策略优化方法在多语言场景下,未能充分利用不同语言的知识,限制了模型性能。
- LRPO将语言选择视为一个可学习的变量,通过多语言rollout和偏好学习,提升训练信号的多样性。
- LRPO使用可训练的语言路由器,平衡语言探索与利用,自适应地选择更具信息量的语言进行训练。
📝 摘要(中文)
大型语言模型(LLMs)在异构多语言语料库上进行训练,但现有的策略优化方法通常隐式地将每个训练问题限制为单一的响应语言,或者依赖于固定的主导语言进行监督。我们提出了语言路由策略优化(LRPO),这是一个在线策略优化框架,它将语言视为一个可选择的变量。LRPO为每个训练问题引发多语言的rollout,并将它们的相对质量整合到基于偏好的策略更新中,从而在固定的rollout预算下增加训练信号的多样性和信息量。为了自适应地确定在强化学习期间探索哪些语言,我们引入了一个可训练的语言路由器,它被公式化为一个多臂老虎机,平衡了对未充分利用的语言的探索和对信息量更大的语言的利用。大量的实验表明,LRPO持续地提高了多语言性能,证明了自适应语言路由能够有效地利用跨语言知识进行训练。我们已在https://github.com/Guochry/LRPO上发布了所有资源。
🔬 方法详解
问题定义:现有的多语言策略优化方法通常依赖于单一语言的监督信号,或者将每个训练样本限制为单一的响应语言。这忽略了不同语言之间蕴含的丰富知识,限制了模型在多语言环境下的泛化能力。痛点在于如何有效地利用多种语言的反馈信息,提升策略优化效率。
核心思路:LRPO的核心思路是将语言选择视为一个可学习的变量,允许模型为每个训练样本生成多种语言的响应。通过比较不同语言响应的质量,利用偏好学习来更新策略,从而鼓励模型学习跨语言的知识。这种方法能够增加训练信号的多样性,并使模型能够自适应地选择更具信息量的语言进行学习。
技术框架:LRPO框架包含以下几个主要模块:1) 多语言Rollout生成器:为每个训练问题生成多种语言的响应;2) 偏好评估器:评估不同语言响应的相对质量;3) 策略优化器:基于偏好评估结果更新策略;4) 语言路由器:自适应地选择在强化学习过程中探索哪些语言。整体流程是,首先使用语言路由器选择一组语言,然后生成这些语言的rollout,评估这些rollout的质量,并使用偏好学习更新策略和语言路由器。
关键创新:LRPO的关键创新在于引入了可训练的语言路由器,它被公式化为一个多臂老虎机。这个路由器能够平衡对未充分利用的语言的探索和对信息量更大的语言的利用,从而自适应地选择在强化学习过程中探索哪些语言。与传统的固定语言选择策略相比,LRPO能够更有效地利用跨语言知识,提升策略优化效率。
关键设计:语言路由器使用softmax策略选择语言,其概率由一个可学习的神经网络决定。该网络的输入是训练问题的表示,输出是每种语言的得分。损失函数包括两部分:偏好损失和探索奖励。偏好损失鼓励模型选择质量更高的语言,探索奖励鼓励模型探索未充分利用的语言。具体而言,偏好损失基于Bradley-Terry模型,探索奖励基于语言的使用频率。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LRPO在多个多语言任务上都取得了显著的性能提升。例如,在多语言摘要任务中,LRPO相比于基线方法提升了BLEU分数,证明了自适应语言路由能够有效地利用跨语言知识进行训练。具体提升幅度根据不同任务和数据集有所不同,但总体趋势是LRPO能够持续提高多语言性能。
🎯 应用场景
LRPO可应用于多语言对话系统、多语言机器翻译、多语言代码生成等领域。通过自适应地利用不同语言的知识,可以提升模型在多语言环境下的性能和泛化能力。该研究对于构建更加智能和灵活的多语言人工智能系统具有重要意义。
📄 摘要(原文)
Large language models~(LLMs) are trained on heterogeneous multilingual corpora, yet existing policy optimization methods often implicitly restrict each training question to a single response language or rely on a fixed dominant language for supervision. We propose language-routed policy optimization (LRPO), an online policy optimization framework that treats language as a selectable variable. LRPO elicits multilingual rollouts for each training question and integrates their relative quality into preference-based policy updates, increasing the diversity and informativeness of training signals under the fixed rollout budget. To adaptively determine which languages to explore during reinforcement learning, we introduce a trainable language router formulated as a multi-armed bandit, balancing exploration of underutilized languages with exploitation of more informative ones. Extensive experiments show that LRPO consistently improves multilingual performance, demonstrating that adaptive language routing enables effective cross-lingual knowledge exploitation for training. We release all the resources at https://github.com/Guochry/LRPO.