Cross-lingual Human-Preference Alignment for Neural Machine Translation with Direct Quality Optimization

作者: Kaden Uhlig, Joern Wuebker, Raphael Reinauer, John DeNero

分类: cs.CL

发布日期: 2024-09-26 (更新: 2025-09-29)

备注: 21 pages, 4 figures

💡 一句话要点

提出DQO：利用翻译质量估计模型优化神经机器翻译，实现跨语种人类偏好对齐

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 神经机器翻译 人类偏好对齐 直接偏好优化 翻译质量估计 多语言模型

📋 核心要点

神经机器翻译(NMT)存在任务与数据不匹配的问题，限制了模型性能。
提出直接质量优化(DQO)，利用预训练的翻译质量估计模型作为人类偏好的替代。
实验表明，DQO能有效提升多语言NMT模型在所有语言上的翻译质量。

📝 摘要（中文）

本文提出了一种名为直接质量优化(DQO)的方法，它是直接偏好优化(DPO)的变体，用于神经机器翻译(NMT)的任务对齐。DQO利用预训练的翻译质量估计模型作为人类偏好的代理。研究表明，将任务对齐应用于NMT可以解决NMT中存在的任务-数据不匹配问题，从而改进多语言模型的所有语言的翻译质量，即使任务对齐仅应用于这些语言的子集。通过自动指标和人工评估验证了改进效果。

🔬 方法详解

问题定义：神经机器翻译(NMT)模型训练的目标函数通常与人类对翻译质量的真实偏好存在偏差，即任务与数据不匹配。现有的方法，如使用强化学习从人类反馈中学习(RLHF)，试图解决这个问题，但计算成本高昂，训练不稳定。

核心思路：本文的核心思路是利用预训练的翻译质量估计(Translation Quality Estimation, TQE)模型来近似人类的偏好。通过TQE模型，可以为每个翻译结果打分，从而避免直接与人类交互，降低了成本。DQO的目标是训练NMT模型，使其生成的翻译结果的TQE分数更高，从而更符合人类的偏好。

技术框架：DQO方法基于直接偏好优化(DPO)框架。DPO是一种无需强化学习的偏好优化方法，它将奖励建模和策略优化步骤合并为一个步骤。DQO使用预训练的TQE模型作为奖励函数，并使用DPO损失函数来训练NMT模型。具体流程如下：1) 使用NMT模型生成多个候选翻译结果。2) 使用TQE模型对每个候选翻译结果进行评分。3) 使用DPO损失函数，根据TQE分数调整NMT模型的参数，使得模型倾向于生成TQE分数更高的翻译结果。

关键创新：关键创新在于使用预训练的翻译质量估计模型作为人类偏好的代理。这避免了直接与人类交互，降低了训练成本，并使得任务对齐可以应用于大规模的NMT模型。此外，DQO是DPO在NMT领域的具体应用，并针对NMT的特点进行了优化。

关键设计：DQO的关键设计包括：1) 选择合适的预训练TQE模型。TQE模型的质量直接影响DQO的性能。2) DPO损失函数的具体形式。DPO损失函数需要平衡NMT模型的翻译质量和与原始模型的相似度。3) 如何有效地利用TQE模型提供的分数。例如，可以使用不同的加权策略来调整DPO损失函数。

📊 实验亮点

实验结果表明，DQO方法能够显著提升多语言NMT模型的翻译质量。在多个语言对上，DQO方法在BLEU等自动指标上取得了显著提升，并且在人工评估中也获得了更高的评分。值得注意的是，即使只在部分语言上应用DQO，也能提升模型在所有语言上的性能，体现了跨语种人类偏好对齐的优势。

🎯 应用场景

该研究成果可广泛应用于机器翻译领域，尤其是在需要高质量翻译的场景，如国际会议、跨国商务、多语言客户服务等。通过DQO方法，可以提升机器翻译的流畅度、准确性和自然度，从而更好地满足用户的需求，促进跨语言交流。

📄 摘要（原文）

Reinforcement Learning from Human Feedback (RLHF) and derivative techniques like Direct Preference Optimization (DPO) are task-alignment algorithms used to repurpose general, foundational models for specific tasks. We show that applying task-alignment to neural machine translation (NMT) addresses an existing task--data mismatch in NMT, leading to improvements across all languages of a multilingual model, even when task-alignment is only applied to a subset of those languages. We do so by introducing Direct Quality Optimization (DQO), a variant of DPO leveraging a pre-trained translation quality estimation model as a proxy for human preferences, and verify the improvements with both automatic metrics and human evaluation.

Cross-lingual Human-Preference Alignment for Neural Machine Translation with Direct Quality Optimization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理