RL from Teacher-Model Refinement: Gradual Imitation Learning for Machine Translation

作者: Dongyub Jude Lee, Zhenyi Ye, Pengcheng He

分类: cs.CL, cs.AI

发布日期: 2025-07-29 (更新: 2025-12-19)

💡 一句话要点

提出RLfR：通过教师模型精炼的强化学习用于机器翻译，提升语义质量和实体保持。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 机器翻译 强化学习 偏好学习 教师模型 模型精炼

📋 核心要点

现有机器翻译偏好学习方法依赖大量人工标注数据，泛化能力受限。
RLfR利用教师模型生成actor策略下的精炼样本，构建模型感知的奖励信号。
实验表明，RLfR在多个语向上优于DPO等基线，提升了翻译的语义质量。

📝 摘要（中文）

本文提出了一种用于机器翻译的偏好学习方法，名为“基于教师模型精炼的强化学习”（RLfR）。该方法不同于依赖大量精心策划的偏好三元组的传统方法（如直接偏好优化DPO），而是利用一个冻结的教师模型，生成基于策略的、以actor为条件的精炼结果。在每个步骤中，actor采样候选翻译，教师模型对每个草稿进行最小的局部编辑，然后使用一个组合奖励来强化actor，以缩小差距。该奖励结合了缩放的负编辑距离（用于词汇和结构保真度）以及COMET（用于语义充分性）。这种方法产生了一个稳定的、模型感知的学习信号，而无需显式的偏好数据集。在FLORES-200（英语到德语、西班牙语、中文、韩语和日语）上的实验表明，RLfR始终优于强大的MT-SFT、DPO和固定参考RL基线，提高了语义质量和实体保持，并在基于LLM的评估中取得了优异的性能。

🔬 方法详解

问题定义：现有机器翻译的偏好学习方法，例如DPO，依赖于大量人工标注的偏好三元组数据。这些数据标注成本高昂，并且模型在训练数据之外的泛化能力较弱。如何利用更少的标注数据，提升机器翻译模型的泛化能力和翻译质量，是本文要解决的核心问题。

核心思路：本文的核心思路是利用一个冻结的教师模型，对actor模型生成的翻译结果进行精炼。教师模型扮演“专家”的角色，对actor的输出进行局部优化，从而提供一个更有效的学习信号。通过强化学习，actor模型学习模仿教师模型的精炼过程，逐步提升翻译质量。这种方法避免了对大量人工标注数据的依赖，并且能够更好地利用模型自身的知识。

技术框架：RLfR的整体框架包含一个actor模型和一个冻结的教师模型。Actor模型负责生成候选翻译，教师模型负责对候选翻译进行局部精炼。强化学习过程如下：1) Actor模型根据当前策略生成多个候选翻译；2) 教师模型对每个候选翻译进行最小的局部编辑，生成精炼后的翻译；3) 计算actor生成的翻译与教师模型精炼后的翻译之间的奖励，该奖励由两部分组成：缩放的负编辑距离（用于词汇和结构保真度）和COMET评分（用于语义充分性）；4) 使用该奖励更新actor模型的策略。

关键创新：RLfR的关键创新在于使用教师模型进行在线精炼，从而生成模型感知的奖励信号。与传统的偏好学习方法相比，RLfR不需要显式的偏好数据集，而是利用教师模型的知识来指导actor模型的学习。这种方法能够更有效地利用模型自身的知识，并且能够更好地泛化到未见数据。

关键设计：奖励函数是RLfR的关键设计之一。奖励函数由两部分组成：缩放的负编辑距离和COMET评分。负编辑距离用于衡量actor生成的翻译与教师模型精炼后的翻译之间的词汇和结构差异，COMET评分用于衡量actor生成的翻译的语义充分性。通过将这两部分结合起来，可以有效地指导actor模型学习生成既忠实于原文，又具有良好语义的翻译结果。教师模型采用冻结的预训练模型，保证了精炼过程的稳定性和可靠性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，RLfR在FLORES-200数据集的多个语向上均优于MT-SFT、DPO和固定参考RL等基线模型。在语义质量和实体保持方面，RLfR取得了显著提升。此外，在基于LLM的评估中，RLfR也表现出优异的性能，证明了其在生成高质量翻译方面的有效性。

🎯 应用场景

RLfR方法可应用于各种机器翻译场景，尤其适用于低资源语言翻译和领域自适应翻译。该方法通过利用教师模型进行在线精炼，降低了对大量标注数据的依赖，使得在数据稀缺的情况下也能训练出高质量的翻译模型。此外，该方法还可以应用于其他序列生成任务，例如文本摘要和对话生成。

📄 摘要（原文）

Preference-learning methods for machine translation (MT), such as Direct Preference Optimization (DPO), have shown strong gains but typically rely on large, carefully curated preference triplets and often struggle to generalize beyond their tuning domains. We propose Reinforcement Learning from Teacher-Model Refinement (RLfR), which replaces static triplets with on-policy, actor-conditioned refinements produced by a frozen teacher. At each step, the actor samples candidate translations, the teacher performs a minimal local edit of each draft, and the actor is reinforced to close the gap using a composite reward that combines scaled negative edit distance for lexical and structural fidelity with COMET for semantic adequacy. This formulation yields a stable, model-aware learning signal without requiring explicit preference datasets. Experiments on FLORES-200 (English to German, Spanish, Chinese, Korean, and Japanese) show that RLfR consistently outperforms strong MT-SFT, DPO, and fixed-reference RL baselines, improving semantic quality and entity preservation, and also achieves superior performance under LLM-based judge evaluations.

RL from Teacher-Model Refinement: Gradual Imitation Learning for Machine Translation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理