Better Literary Translation: A Multi-Aspect Data Generation and LLM Training Approach
作者: Zhihao Lin, Ziqi Zhu, Hao Huang, Guanghui Wang, Peiyang He
分类: cs.CL, cs.AI
发布日期: 2026-06-04
备注: Accepted by ACL 2026 Industry
💡 一句话要点
提出多维数据生成与LLM训练方法以提升文学翻译质量
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 文学翻译 多维数据生成 LLM训练 强化学习 自然语言处理
📋 核心要点
- 现有文学翻译方法面临高质量标注数据稀缺和表达流畅性与文学效果之间的平衡挑战。
- 本文提出了一种多维迭代优化框架,通过专门的LLM翻译器生成针对不同质量维度的翻译参考和偏好数据。
- 实验结果显示,生成的参考在SFT上比原始真实值提高了8.65 CEA100分,LitMT模型在基准测试中表现优异。
📝 摘要(中文)
文学翻译面临高质量标注数据稀缺和表达流畅性与文学效果平衡的独特挑战。本文提出了一种多维迭代优化框架,通过专门的LLM翻译器生成高质量的翻译参考和偏好数据,每个翻译器针对不同的质量维度。我们利用生成的数据进行监督微调和强化学习。实验表明,生成的参考在SFT上比原始真实值提高了8.65 CEA100分。在强化学习方面,我们发现DPO在此设置下导致性能下降,而利用显式奖励模型的GRPO则带来了额外的1.51分提升。我们的模型LitMT-8B和LitMT-14B在MetaphorTrans英汉文学翻译基准上分别达到了67.25和69.07 CEA100,表现出色,并在跨领域文学作品中展现了强大的泛化能力。
🔬 方法详解
问题定义:本文旨在解决文学翻译中高质量标注数据稀缺的问题,现有方法难以平衡表达流畅性与文学效果,导致翻译质量不高。
核心思路:提出一种多维迭代优化框架,通过多个专门的LLM翻译器生成高质量的翻译参考和偏好数据,以便在不同质量维度上进行优化。
技术框架:整体架构包括数据生成、监督微调和强化学习三个主要阶段。首先,使用不同的LLM翻译器生成针对特定维度的翻译参考;然后利用这些数据进行模型的微调和强化学习。
关键创新:最重要的创新在于通过多维度的生成数据来提升翻译质量,尤其是在文学翻译领域,这种方法与传统的单一数据源方法有本质区别。
关键设计:在模型训练中,采用了显式奖励模型的GRPO方法,优化了训练过程的稳定性,并通过两阶段训练设计增强了模型的在线探索能力。
🖼️ 关键图片
📊 实验亮点
实验结果显示,生成的翻译参考在SFT上比原始真实值提高了8.65 CEA100分,而使用GRPO的模型在强化学习中又提升了1.51分。LitMT-14B在MetaphorTrans基准上达到了69.07 CEA100,表现优于Claude Sonnet 4.5的68.43分,展现了强大的竞争力。
🎯 应用场景
该研究的潜在应用领域包括文学翻译、机器翻译系统的开发以及自然语言处理中的文本生成任务。其实际价值在于提升文学作品的翻译质量,使得翻译更符合原作的文学效果,未来可能对跨文化交流和文学传播产生积极影响。
📄 摘要(原文)
Literary translation poses unique challenges due to the scarcity of high-quality annotated data and the need to balance expression fluency with literary effect. We present a multi-aspect iterative refinement framework that generates high-quality translation references and preference data through specialized LLM translators, each targeting a distinct quality dimension. We leverage the generated data for supervised fine-tuning and reinforcement learning. Experiments show that our generated references outperform the original ground truth for SFT by 8.65 CEA100 points. For reinforcement learning, we find that DPO leads to performance degradation in this setting, while leveraging an explicit reward model for GRPO yields an additional 1.51 point improvement. We attribute this to the stability of two-stage training and GRPO's online exploration capability. Our resulting models, LitMT-8B and LitMT-14B, achieve 67.25 and 69.07 CEA100 respectively on the MetaphorTrans English-to-Chinese literary translation benchmark, competitive with Claude Sonnet 4.5 at 68.43, and demonstrate strong generalization to out-of-domain literary work (i.e., O. Henry).