Backtranslation Augmented Direct Preference Optimization for Neural Machine Translation

📄 arXiv: 2604.25702v1 📥 PDF

作者: Mehrdad Ghassabi, Spehr Rajabi, Hamidreza Baradaran Kashani, Sadra Hakim, Mahshid Keivandarian

分类: cs.CL

发布日期: 2026-04-28

备注: 5 pages, 2 figures


💡 一句话要点

提出基于回译增强的直接偏好优化方法,提升神经机器翻译质量

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 神经机器翻译 强化学习 直接偏好优化 回译数据增强 后训练

📋 核心要点

  1. 现有神经机器翻译系统依赖监督平行数据训练,但仍存在翻译错误。
  2. 论文提出基于强化学习的后训练方法,利用DPO和专家反馈迭代优化模型。
  3. 实验表明,该方法显著提升了gemma3-1b模型在英德翻译任务上的COMET评分。

📝 摘要(中文)

本文提出了一种基于强化学习的后训练范式,旨在纠正神经机器翻译(NMT)系统中的常见翻译错误。该框架仅需通用文本语料库和一个专家翻译器(可以是人类或AI系统)来提供迭代反馈。实验集中在英语到德语的翻译任务上。该方法使用直接偏好优化(DPO)进行强化学习后训练。将DPO驱动的框架应用于gemma3-1b模型,显著提高了翻译质量,在英语到德语任务上的COMET评分从0.703提升到0.747。结果表明,DPO为通过基于偏好的后训练增强预训练NMT模型提供了一种高效且稳定的途径。

🔬 方法详解

问题定义:论文旨在解决神经机器翻译模型在训练完成后仍然存在的翻译错误问题。现有方法主要依赖于大规模平行语料库的监督学习,但即使在高质量的语料库上训练,模型仍然会犯一些明显的错误。这些错误可能是由于数据偏差、模型容量限制或训练目标与人类偏好不一致等原因造成的。

核心思路:论文的核心思路是利用强化学习,通过人类或AI专家的反馈来对预训练的神经机器翻译模型进行后训练,从而纠正翻译错误并提升翻译质量。具体来说,论文采用了直接偏好优化(DPO)方法,直接优化模型的策略,使其更符合专家的偏好。

技术框架:整体框架包括以下几个主要步骤:1) 使用通用文本语料库进行回译数据增强,生成伪平行语料;2) 使用预训练的神经机器翻译模型和回译数据进行初步训练;3) 使用DPO算法进行后训练,其中专家翻译器(可以是人类或AI系统)提供翻译偏好反馈;4) 迭代进行DPO训练,不断优化模型。

关键创新:论文的关键创新在于将回译数据增强和直接偏好优化(DPO)相结合,用于神经机器翻译模型的后训练。DPO算法可以直接优化模型的策略,避免了传统强化学习方法中复杂的奖励函数设计和策略梯度估计问题。同时,回译数据增强可以提供更多的训练数据,提高模型的泛化能力。

关键设计:论文的关键设计包括:1) 使用gemma3-1b模型作为预训练的神经机器翻译模型;2) 使用COMET评分作为评估指标;3) 采用英语到德语的翻译任务进行实验;4) 详细描述了DPO算法的实现细节,包括偏好数据的收集方式、损失函数的定义和优化算法的选择。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,将DPO驱动的框架应用于gemma3-1b模型,显著提高了翻译质量,在英语到德语任务上的COMET评分从0.703提升到0.747。这一提升表明,基于偏好的后训练方法可以有效增强预训练NMT模型,并使其更符合人类的翻译偏好。

🎯 应用场景

该研究成果可应用于各种机器翻译场景,尤其适用于高质量翻译需求,如文档翻译、机器同传等。通过利用专家反馈和DPO算法,可以有效提升翻译质量,减少人工校对成本。未来,该方法有望推广到其他自然语言处理任务中,例如文本摘要、对话生成等。

📄 摘要(原文)

Contemporary neural machine translation (NMT) systems are almost exclusively built by training on supervised parallel data. Despite the tremendous progress achieved, these systems still exhibit persistent translation errors. This paper proposes that a post-training paradigm based on reinforcement learning (RL) can effectively rectify such mistakes. We introduce a novel framework that requires only a general text corpus and an expert translator which can be either human or an AI system to provide iterative feedback. In our experiments, we focus specifically on English-to-German translation as a representative high-resource language pair. Crucially, we implement this RL-based post-training using Direct Preference Optimization (DPO). Applying our DPO-driven framework to the gemma3-1b model yields a significant improvement in translation quality, elevating it's COMET score from 0.703 to 0.747 on the English to German task. The results demonstrate that DPO offers an efficient and stable pathway for enhancing pre-trained NMT models through preference-based post-training.