Trans-Zero: Self-Play Incentivizes Large Language Models for Multilingual Translation Without Parallel Data

📄 arXiv: 2504.14669v2 📥 PDF

作者: Wei Zou, Sen Yang, Yu Bao, Shujian Huang, Jiajun Chen, Shanbo Cheng

分类: cs.CL

发布日期: 2025-04-20 (更新: 2025-05-17)

备注: 11 pages, 4 figures, accepted by ACL 2025 as findings


💡 一句话要点

提出TRANS-ZERO,利用自博弈和大型语言模型实现无需平行数据的多语言翻译

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语言翻译 大型语言模型 自博弈 蒙特卡洛树搜索 低资源语言 无监督学习 机器翻译

📋 核心要点

  1. 多语言机器翻译依赖大量平行语料,低资源语言数据匮乏,且易发生灾难性遗忘。
  2. TRANS-ZERO利用大型语言模型的内在多语言知识,通过自博弈框架实现翻译,无需平行数据。
  3. 实验表明,TRANS-ZERO性能媲美甚至超越了使用大规模平行数据训练的模型,尤其在非英语翻译方向。

📝 摘要(中文)

大型语言模型(LLMs)的兴起重塑了机器翻译(MT)领域,但多语言机器翻译仍然严重依赖平行数据进行监督微调(SFT),面临着低资源语言数据稀缺和灾难性遗忘等挑战。为了解决这些问题,我们提出了TRANS-ZERO,一个仅利用单语数据和LLM内在多语言知识的自博弈框架。TRANS-ZERO结合了遗传蒙特卡洛树搜索(G-MCTS)与偏好优化,实现了强大的翻译性能,可与监督方法相媲美。实验表明,该方法不仅匹配了在大型平行数据上训练的模型的性能,而且在非英语翻译方向上表现出色。进一步的分析表明,G-MCTS通过迭代翻译探索语义一致的候选,显著提高了翻译质量,为该框架的成功奠定了坚实的基础。

🔬 方法详解

问题定义:论文旨在解决多语言机器翻译中对平行语料的依赖问题,尤其是在低资源语言场景下。现有方法需要大量的平行语料进行监督微调,这限制了它们在数据稀缺语言上的应用,并且容易发生灾难性遗忘,即模型在学习新语言时忘记了之前学习的语言的知识。

核心思路:TRANS-ZERO的核心思路是利用大型语言模型(LLM)自身所蕴含的多语言知识,通过自博弈的方式,在没有平行语料的情况下,引导LLM学习翻译能力。这种方法避免了对平行语料的依赖,并且可以更好地利用LLM的通用语言能力。

技术框架:TRANS-ZERO框架主要包含两个核心模块:遗传蒙特卡洛树搜索(G-MCTS)和偏好优化。首先,G-MCTS通过迭代翻译,探索语义一致的候选翻译结果。然后,偏好优化模块根据G-MCTS生成的候选翻译结果,对LLM进行微调,使其更倾向于生成高质量的翻译。整个过程是一个自博弈的过程,LLM不断地生成翻译结果,并根据这些结果进行自我改进。

关键创新:TRANS-ZERO的关键创新在于它将遗传蒙特卡洛树搜索(G-MCTS)与偏好优化相结合,用于在没有平行语料的情况下训练多语言翻译模型。G-MCTS能够有效地探索语义一致的候选翻译结果,而偏好优化则能够引导LLM学习生成高质量翻译的能力。与现有方法相比,TRANS-ZERO不需要平行语料,并且能够更好地利用LLM的通用语言能力。

关键设计:G-MCTS使用遗传算法来优化搜索策略,以便更有效地探索候选翻译结果。偏好优化模块使用对比学习损失函数,鼓励LLM生成更接近人工翻译的翻译结果。具体的参数设置和网络结构细节在论文中有详细描述,例如G-MCTS的搜索深度、宽度,以及偏好优化模块的学习率等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,TRANS-ZERO在多个翻译方向上取得了与监督学习方法相媲美的性能,甚至在某些非英语翻译方向上超越了监督学习方法。例如,在某些低资源语言的翻译任务中,TRANS-ZERO的BLEU值达到了与使用大规模平行语料训练的模型相当的水平。这证明了TRANS-ZERO在无需平行语料的情况下,也能有效地学习多语言翻译能力。

🎯 应用场景

TRANS-ZERO技术可应用于低资源语言的机器翻译,帮助打破语言障碍,促进全球范围内的信息交流。它还可用于构建无需平行语料的多语言翻译系统,降低翻译成本,提高翻译效率。此外,该技术在跨语言信息检索、多语言对话系统等领域也具有潜在的应用价值。

📄 摘要(原文)

The rise of Large Language Models (LLMs) has reshaped machine translation (MT), but multilingual MT still relies heavily on parallel data for supervised fine-tuning (SFT), facing challenges like data scarcity for low-resource languages and catastrophic forgetting. To address these issues, we propose TRANS-ZERO, a self-play framework that leverages only monolingual data and the intrinsic multilingual knowledge of LLM. TRANS-ZERO combines Genetic Monte-Carlo Tree Search (G-MCTS) with preference optimization, achieving strong translation performance that rivals supervised methods. Experiments demonstrate that this approach not only matches the performance of models trained on large-scale parallel data but also excels in non-English translation directions. Further analysis reveals that G-MCTS itself significantly enhances translation quality by exploring semantically consistent candidates through iterative translations, providing a robust foundation for the framework's succuss.