Cross-lingual Human-Preference Alignment for Neural Machine Translation with Direct Quality Optimization

📄 arXiv: 2409.17673v3 📥 PDF

作者: Kaden Uhlig, Joern Wuebker, Raphael Reinauer, John DeNero

分类: cs.CL

发布日期: 2024-09-26 (更新: 2025-09-29)

备注: 21 pages, 4 figures


💡 一句话要点

提出DQO:利用翻译质量估计模型优化神经机器翻译,实现跨语种人类偏好对齐

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 神经机器翻译 人类偏好对齐 直接偏好优化 翻译质量估计 多语言模型

📋 核心要点

  1. 神经机器翻译(NMT)存在任务与数据不匹配的问题,限制了模型性能。
  2. 提出直接质量优化(DQO),利用预训练的翻译质量估计模型作为人类偏好的替代。
  3. 实验表明,DQO能有效提升多语言NMT模型在所有语言上的翻译质量。

📝 摘要(中文)

本文提出了一种名为直接质量优化(DQO)的方法,它是直接偏好优化(DPO)的变体,用于神经机器翻译(NMT)的任务对齐。DQO利用预训练的翻译质量估计模型作为人类偏好的代理。研究表明,将任务对齐应用于NMT可以解决NMT中存在的任务-数据不匹配问题,从而改进多语言模型的所有语言的翻译质量,即使任务对齐仅应用于这些语言的子集。通过自动指标和人工评估验证了改进效果。

🔬 方法详解

问题定义:神经机器翻译(NMT)模型训练的目标函数通常与人类对翻译质量的真实偏好存在偏差,即任务与数据不匹配。现有的方法,如使用强化学习从人类反馈中学习(RLHF),试图解决这个问题,但计算成本高昂,训练不稳定。

核心思路:本文的核心思路是利用预训练的翻译质量估计(Translation Quality Estimation, TQE)模型来近似人类的偏好。通过TQE模型,可以为每个翻译结果打分,从而避免直接与人类交互,降低了成本。DQO的目标是训练NMT模型,使其生成的翻译结果的TQE分数更高,从而更符合人类的偏好。

技术框架:DQO方法基于直接偏好优化(DPO)框架。DPO是一种无需强化学习的偏好优化方法,它将奖励建模和策略优化步骤合并为一个步骤。DQO使用预训练的TQE模型作为奖励函数,并使用DPO损失函数来训练NMT模型。具体流程如下:1) 使用NMT模型生成多个候选翻译结果。2) 使用TQE模型对每个候选翻译结果进行评分。3) 使用DPO损失函数,根据TQE分数调整NMT模型的参数,使得模型倾向于生成TQE分数更高的翻译结果。

关键创新:关键创新在于使用预训练的翻译质量估计模型作为人类偏好的代理。这避免了直接与人类交互,降低了训练成本,并使得任务对齐可以应用于大规模的NMT模型。此外,DQO是DPO在NMT领域的具体应用,并针对NMT的特点进行了优化。

关键设计:DQO的关键设计包括:1) 选择合适的预训练TQE模型。TQE模型的质量直接影响DQO的性能。2) DPO损失函数的具体形式。DPO损失函数需要平衡NMT模型的翻译质量和与原始模型的相似度。3) 如何有效地利用TQE模型提供的分数。例如,可以使用不同的加权策略来调整DPO损失函数。

📊 实验亮点

实验结果表明,DQO方法能够显著提升多语言NMT模型的翻译质量。在多个语言对上,DQO方法在BLEU等自动指标上取得了显著提升,并且在人工评估中也获得了更高的评分。值得注意的是,即使只在部分语言上应用DQO,也能提升模型在所有语言上的性能,体现了跨语种人类偏好对齐的优势。

🎯 应用场景

该研究成果可广泛应用于机器翻译领域,尤其是在需要高质量翻译的场景,如国际会议、跨国商务、多语言客户服务等。通过DQO方法,可以提升机器翻译的流畅度、准确性和自然度,从而更好地满足用户的需求,促进跨语言交流。

📄 摘要(原文)

Reinforcement Learning from Human Feedback (RLHF) and derivative techniques like Direct Preference Optimization (DPO) are task-alignment algorithms used to repurpose general, foundational models for specific tasks. We show that applying task-alignment to neural machine translation (NMT) addresses an existing task--data mismatch in NMT, leading to improvements across all languages of a multilingual model, even when task-alignment is only applied to a subset of those languages. We do so by introducing Direct Quality Optimization (DQO), a variant of DPO leveraging a pre-trained translation quality estimation model as a proxy for human preferences, and verify the improvements with both automatic metrics and human evaluation.