CLewR: Curriculum Learning with Restarts for Machine Translation Preference Learning
作者: Alexandra Dragomir, Florin Brad, Radu Tudor Ionescu
分类: cs.CL, cs.AI, cs.LG
发布日期: 2026-01-09
🔗 代码/项目: GITHUB
💡 一句话要点
CLewR:一种带重启的课程学习方法,用于机器翻译偏好学习
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器翻译 偏好学习 课程学习 灾难性遗忘 大型语言模型
📋 核心要点
- 现有机器翻译偏好优化方法忽略了训练数据呈现顺序对模型性能的影响,可能导致次优结果。
- 论文提出带重启的课程学习策略(CLewR),通过多次迭代由易到难的课程来缓解灾难性遗忘问题。
- 实验表明,CLewR在多个模型和偏好优化技术上均能稳定提升机器翻译性能。
📝 摘要(中文)
大型语言模型(LLMs)在零样本多语言机器翻译(MT)中表现出强大的竞争力。一些后续工作通过偏好优化进一步提高了MT性能,但它们在很大程度上忽略了一个关键方面:训练期间数据样本的呈现顺序。我们通过将课程学习集成到各种最先进的偏好优化算法中来解决这个问题,以提高MT性能。我们引入了一种新颖的带重启的课程学习策略(CLewR),它在训练期间多次迭代由易到难的课程,以有效缓解对简单示例的灾难性遗忘。我们证明了在多个模型系列(Gemma2、Qwen2.5、Llama3.1)和偏好优化技术中,CLewR都能带来持续的性能提升。我们的代码已公开发布在https://github.com/alexandra-dragomir/CLewR。
🔬 方法详解
问题定义:论文旨在解决机器翻译偏好学习中,训练数据呈现顺序对模型性能的影响问题。现有方法通常采用随机或固定的数据顺序,忽略了样本难度对学习过程的影响,可能导致模型在学习复杂样本时遗忘简单样本,从而影响整体翻译质量。
核心思路:论文的核心思路是利用课程学习的思想,按照由易到难的顺序呈现训练数据,并引入重启机制,多次迭代课程,以缓解灾难性遗忘。通过这种方式,模型可以逐步学习,并保持对简单样本的记忆,从而提高整体翻译性能。
技术框架:CLewR方法可以集成到现有的偏好优化算法中。整体流程如下:1) 对训练数据进行难度排序;2) 按照由易到难的顺序训练模型;3) 在训练过程中,周期性地重启课程,重新从简单样本开始训练。该框架可以与不同的偏好优化算法(如DPO、IPO等)和不同的模型架构(如Gemma2、Qwen2.5、Llama3.1等)结合使用。
关键创新:论文的关键创新在于提出了带重启的课程学习策略(CLewR)。与传统的课程学习方法不同,CLewR通过多次迭代课程来缓解灾难性遗忘问题。这种重启机制使得模型能够更好地保持对简单样本的记忆,从而提高整体翻译性能。此外,CLewR具有通用性,可以与不同的偏好优化算法和模型架构结合使用。
关键设计:论文的关键设计包括:1) 难度排序:使用BLEU评分或其他指标来衡量样本的翻译难度;2) 课程重启:设置重启周期,例如每训练一定数量的epoch后,重新从简单样本开始训练;3) 学习率调整:在重启后,可以适当调整学习率,以更好地适应简单样本的学习。
📊 实验亮点
实验结果表明,CLewR在多个模型系列(Gemma2、Qwen2.5、Llama3.1)和偏好优化技术(DPO, IPO等)上均能带来持续的性能提升。例如,在某些实验中,CLewR可以将BLEU评分提高1-2个点。这些结果表明,CLewR是一种有效的机器翻译偏好学习方法。
🎯 应用场景
该研究成果可应用于各种机器翻译场景,尤其是在资源匮乏的语言对上。通过优化训练数据的呈现顺序,可以提高翻译模型的性能和泛化能力。此外,该方法也可以推广到其他自然语言处理任务中,例如文本摘要、对话生成等,以提高模型的学习效率和性能。
📄 摘要(原文)
Large language models (LLMs) have demonstrated competitive performance in zero-shot multilingual machine translation (MT). Some follow-up works further improved MT performance via preference optimization, but they leave a key aspect largely underexplored: the order in which data samples are given during training. We address this topic by integrating curriculum learning into various state-of-the-art preference optimization algorithms to boost MT performance. We introduce a novel curriculum learning strategy with restarts (CLewR), which reiterates easy-to-hard curriculum multiple times during training to effectively mitigate the catastrophic forgetting of easy examples. We demonstrate consistent gains across several model families (Gemma2, Qwen2.5, Llama3.1) and preference optimization techniques. We publicly release our code at https://github.com/alexandra-dragomir/CLewR.