Mending the Holes: Mitigating Reward Hacking in Reinforcement Learning for Multilingual Translation

作者: Yifeng Liu, Siqi Ouyang, Yatish Hosmane Revanasiddappa, Lei Li

分类: cs.CL

发布日期: 2026-03-13

备注: Our code is available at https://github.com/LeiLiLab/WALAR

💡 一句话要点

提出WALAR方法，通过强化学习提升低资源多语翻译LLM性能。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器翻译 强化学习 低资源语言 多语模型 质量估计

📋 核心要点

现有低资源机器翻译方法依赖高质量平行数据，但低资源语言数据稀缺，限制了模型性能。
WALAR利用单语数据进行强化学习，通过词对齐和语言对齐缓解质量估计模型中的漏洞。
实验表明，WALAR显著提升了LLM在低资源语言翻译上的性能，超越了现有最佳开源模型。

📝 摘要（中文）

大型语言模型(LLM)在高资源语言对的机器翻译方面表现出卓越的能力，但其在低资源翻译方面的性能仍然滞后。现有的后训练方法严重依赖高质量的平行数据，而这些数据对于低资源语言通常稀缺或不可用。在本文中，我们介绍了一种仅使用单语文本的强化训练方法WALAR，以提升LLM在大量低资源语言上的翻译能力，同时保留其在高资源语言上的性能。我们的关键见解基于对现有基于源语言的多语质量估计(QE)模型中失效模式（或“漏洞”）的观察。使用这些QE模型的强化学习(RL)倾向于放大这些漏洞，导致多语LLM性能下降。我们开发了包括词对齐和语言对齐在内的技术，以减轻WALAR的RL训练奖励中的此类漏洞。我们持续训练了一个支持101种语言翻译的LLM，使用了WALAR。实验表明，我们的新模型在Flores-101数据集的1400个语言方向上，大幅优于最强的开源多语LLM之一LLaMAX。

🔬 方法详解

问题定义：论文旨在解决低资源语言机器翻译中，大型语言模型(LLM)性能不足的问题。现有方法依赖于高质量的平行语料，而低资源语言的平行语料通常难以获取，这限制了模型的泛化能力和翻译质量。此外，使用质量估计(QE)模型进行强化学习时，QE模型本身的缺陷会被放大，导致模型性能更差。

核心思路：论文的核心思路是利用单语数据，通过强化学习来提升LLM在低资源语言上的翻译能力。为了解决QE模型中的漏洞，论文提出了词对齐和语言对齐技术，以更准确地评估翻译质量，从而引导强化学习过程。这样可以在不依赖平行语料的情况下，提升模型在低资源语言上的翻译性能。

技术框架：WALAR的整体框架包括以下几个主要步骤：1) 使用单语数据生成翻译结果；2) 使用基于源语言的质量估计(QE)模型评估翻译质量；3) 利用词对齐和语言对齐技术修正QE模型的输出，缓解其漏洞；4) 使用修正后的奖励信号进行强化学习，优化LLM的翻译策略。这个过程持续迭代，不断提升模型的翻译能力。

关键创新：论文最重要的技术创新点在于提出了词对齐和语言对齐技术，用于缓解QE模型中的漏洞。传统的QE模型可能存在偏差，导致强化学习过程放大这些偏差，从而降低模型性能。通过词对齐和语言对齐，可以更准确地评估翻译质量，从而更有效地引导强化学习过程。

关键设计：WALAR的关键设计包括：1) 使用高质量的词对齐模型，例如GIZA++，来对源语言和目标语言进行词对齐；2) 使用语言对齐技术，例如基于语言嵌入的对齐，来确保源语言和目标语言在语义空间中的对齐；3) 设计合适的奖励函数，将词对齐和语言对齐的信息融入到奖励信号中，从而引导强化学习过程。具体的参数设置和网络结构细节在论文中未详细说明，属于未知信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，使用WALAR训练的LLM在Flores-101数据集的1400个语言方向上，显著优于当前最强的开源多语LLM之一LLaMAX。具体的性能提升幅度未在摘要中给出，属于未知信息。该结果验证了WALAR在提升低资源语言翻译性能方面的有效性。

🎯 应用场景

该研究成果可广泛应用于多语言机器翻译系统，尤其是在低资源语言翻译领域。例如，可以用于构建支持更多语种的在线翻译工具、跨语言信息检索系统和多语言对话系统。该方法降低了对平行语料的依赖，使得在缺乏平行数据的语言上进行机器翻译成为可能，具有重要的实际应用价值。

📄 摘要（原文）

Large Language Models (LLMs) have demonstrated remarkable capability in machine translation on high-resource language pairs, yet their performance on low-resource translation still lags behind. Existing post-training methods rely heavily on high-quality parallel data, which are often scarce or unavailable for low-resource languages. In this paper, we introduce WALAR, a reinforcement training method using only monolingual text to elevate LLMs' translation capabilities on massive low-resource languages while retaining their performance on high-resource languages. Our key insight is based on the observation of failure modes (or "holes") in existing source-based multilingual quality estimation (QE) models. Reinforcement learning (RL) using these QE models tends to amplify such holes, resulting in poorer multilingual LLMs. We develop techniques including word alignment and language alignment to mitigate such holes in WALAR's reward for RL training. We continually trained an LLM supporting translation of 101 languages using WALAR. The experiments show that our new model outperforms LLaMAX, one of the strongest open-source multilingual LLMs by a large margin on 1400 language directions on Flores-101 dataset.

Mending the Holes: Mitigating Reward Hacking in Reinforcement Learning for Multilingual Translation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理