Multilingual Contextualization of Large Language Models for Document-Level Machine Translation

📄 arXiv: 2504.12140v2 📥 PDF

作者: Miguel Moura Ramos, Patrick Fernandes, Sweta Agrawal, André F. T. Martins

分类: cs.CL

发布日期: 2025-04-16 (更新: 2025-08-28)

备注: COLM 2025


💡 一句话要点

提出DocBlocks并通过多范式微调,提升LLM在文档级机器翻译中的性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文档级机器翻译 大型语言模型 微调 多范式学习 上下文建模

📋 核心要点

  1. 现有LLM在文档级翻译中难以有效建模长距离依赖和语篇现象,限制了翻译质量。
  2. 提出DocBlocks数据集,并采用多范式微调方法,使LLM能更好地捕获跨句依赖关系。
  3. 实验表明,该方法在文档级翻译质量和推理速度上优于提示和基于代理的方法。

📝 摘要(中文)

大型语言模型(LLM)在句子级机器翻译中表现出色,但扩展到文档级翻译仍然具有挑战性,尤其是在建模跨句子和段落的远程依赖关系和语篇现象方面。本文提出了一种通过在高质文档级数据上进行有针对性的微调来改进基于LLM的长文档翻译的方法。我们整理并引入了DocBlocks数据集。我们的方法支持多种翻译范式,包括直接文档到文档的翻译和分块级翻译,通过整合带有和不带有周围上下文的指令。这使得模型能够更好地捕获跨句依赖关系,同时保持强大的句子级翻译性能。实验结果表明,与提示和基于代理的方法相比,结合多种翻译范式可以提高文档级翻译质量和推理速度。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在文档级机器翻译中表现不佳的问题。现有的LLM虽然在句子级别表现良好,但在处理长文档时,难以捕捉句子之间的依赖关系和语篇信息,导致翻译质量下降。现有的方法,如prompting和agent-based方法,在效率和质量上存在不足。

核心思路:论文的核心思路是通过有针对性的微调,使LLM能够更好地理解和处理文档级别的上下文信息。具体来说,通过构建高质量的文档级翻译数据集(DocBlocks),并采用多种翻译范式(包括直接文档翻译和分块翻译),来训练LLM,使其能够更好地捕捉跨句子的依赖关系。

技术框架:该方法主要包含以下几个阶段:1) 构建DocBlocks数据集,该数据集包含高质量的文档级翻译数据。2) 设计多种翻译范式,包括直接文档到文档的翻译和分块级翻译,并结合带有和不带有周围上下文的指令。3) 使用DocBlocks数据集对LLM进行微调,使其能够更好地捕捉跨句依赖关系。4) 在文档级翻译任务上评估微调后的LLM的性能。

关键创新:该论文的关键创新在于:1) 提出了DocBlocks数据集,这是一个高质量的文档级翻译数据集,可以用于训练LLM。2) 提出了多范式微调方法,该方法结合了多种翻译范式,可以使LLM更好地捕捉跨句依赖关系。3) 实验结果表明,该方法在文档级翻译质量和推理速度上优于现有的方法。

关键设计:论文中没有明确给出关键的参数设置、损失函数、网络结构等技术细节。这些细节可能取决于所使用的具体LLM和微调策略。但是,关键的设计在于DocBlocks数据集的构建和多范式微调方法的选择,这些设计旨在使LLM能够更好地理解和处理文档级别的上下文信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在文档级翻译质量和推理速度上均优于现有的prompting和基于代理的方法。具体的性能数据和提升幅度未在摘要中给出,需要在论文正文中查找。

🎯 应用场景

该研究成果可应用于机器翻译领域,尤其是在需要处理长文档的场景下,如法律文件翻译、新闻报道翻译、文学作品翻译等。通过提高文档级翻译的质量和效率,可以促进跨语言交流和信息共享,具有重要的实际价值和广泛的应用前景。

📄 摘要(原文)

Large language models (LLMs) have demonstrated strong performance in sentence-level machine translation, but scaling to document-level translation remains challenging, particularly in modeling long-range dependencies and discourse phenomena across sentences and paragraphs. In this work, we propose a method to improve LLM-based long-document translation through targeted fine-tuning on high-quality document-level data, which we curate and introduce as DocBlocks. Our approach supports multiple translation paradigms, including direct document-to-document and chunk-level translation, by integrating instructions both with and without surrounding context. This enables models to better capture cross-sentence dependencies while maintaining strong sentence-level translation performance. Experimental results show that incorporating multiple translation paradigms improves document-level translation quality and inference speed compared to prompting and agent-based methods.