Prompting Large Language Models with Human Error Markings for Self-Correcting Machine Translation

作者: Nathaniel Berger, Stefan Riezler, Miriam Exel, Matthias Huck

分类: cs.CL

发布日期: 2024-06-04

备注: To appear at The 25th Annual Conference of the European Association for Machine Translation (EAMT 2024)

💡 一句话要点

利用人工标注错误提示的大语言模型进行机器翻译自校正

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器翻译 大语言模型 译后编辑 人工标注 错误提示

📋 核心要点

现有机器翻译模型在特定领域术语翻译中存在质量问题，需要人工进行译后编辑。
该方法利用人工标注的翻译错误信息，引导大语言模型关注并纠正这些错误。
实验表明，该方法在自动译后编辑和从头翻译方面均有提升，尤其在术语一致性方面。

📝 摘要（中文）

尽管在大规模非配对语言数据上预训练的大语言模型（LLM）在通用领域文本的机器翻译（MT）方面已经达到了最先进水平，但仍然需要进行译后编辑（PE）来纠正错误并提高专业领域中的术语翻译质量。本文提出了一个增强由PE产生的翻译记忆库（TM）（源句段、机器翻译和参考翻译，以下称为PE-TM）的初步研究，以满足技术领域中正确和一致的术语翻译需求。我们研究了一个轻量级的两步场景，其中，在推理时，人工翻译员标记第一步翻译中的错误，然后在第二步从PE-TM中提取一些类似的例子来提示LLM。我们的实验表明，通过人工错误标记来增强翻译的额外工作，可以引导LLM专注于纠正标记的错误，从而在自动译后编辑（APE）和从头开始的机器翻译（MT）方面取得持续的改进。

🔬 方法详解

问题定义：论文旨在解决机器翻译在特定技术领域中术语翻译质量不高的问题。现有方法，即使是基于大型语言模型的机器翻译，仍然需要人工进行译后编辑以修正错误和保证术语一致性。人工译后编辑耗时耗力，因此需要一种更高效的方法来提升机器翻译质量，减少人工干预。

核心思路：论文的核心思路是利用人工标注的错误信息来指导大型语言模型进行自校正。通过在提示（prompt）中加入人工标注的错误，可以使模型更加关注需要修正的部分，从而提高翻译质量和术语一致性。

技术框架：该方法是一个两步流程。第一步，使用机器翻译模型生成初始翻译结果，并由人工翻译员标注其中的错误。第二步，从包含人工译后编辑的翻译记忆库（PE-TM）中检索与当前待翻译句子相似的例子，并将这些例子与人工标注的错误信息一起作为提示输入到大型语言模型中，让模型生成修正后的翻译结果。

关键创新：该方法最重要的创新点在于利用了人工标注的错误信息来指导大型语言模型进行翻译自校正。与传统的自动译后编辑方法相比，该方法能够更精确地定位和修正翻译错误，尤其是在术语翻译方面。此外，该方法是一种轻量级的解决方案，不需要对模型进行额外的训练，只需要在推理阶段使用人工标注的错误信息即可。

关键设计：关键设计包括：1) 如何设计提示（prompt），将人工标注的错误信息有效地传递给大型语言模型；2) 如何从翻译记忆库中检索与当前待翻译句子最相关的例子；3) 如何量化人工标注错误的类型和严重程度，以便更好地指导模型的修正过程。论文中并没有详细描述这些技术细节，属于未来的研究方向。

📊 实验亮点

实验结果表明，通过人工错误标记来增强翻译，可以引导LLM专注于纠正标记的错误，从而在自动译后编辑（APE）和从头开始的机器翻译（MT）方面取得持续的改进。具体的性能提升数据未知，但论文强调了在术语一致性方面的显著改善。

🎯 应用场景

该研究成果可应用于各种需要高质量机器翻译的场景，尤其是在技术文档、法律文件等专业领域。通过减少人工译后编辑的工作量，可以显著提高翻译效率，降低翻译成本，并保证术语翻译的一致性和准确性。未来可应用于构建智能翻译辅助系统，提升翻译质量和效率。

📄 摘要（原文）

While large language models (LLMs) pre-trained on massive amounts of unpaired language data have reached the state-of-the-art in machine translation (MT) of general domain texts, post-editing (PE) is still required to correct errors and to enhance term translation quality in specialized domains. In this paper we present a pilot study of enhancing translation memories (TM) produced by PE (source segments, machine translations, and reference translations, henceforth called PE-TM) for the needs of correct and consistent term translation in technical domains. We investigate a light-weight two-step scenario where, at inference time, a human translator marks errors in the first translation step, and in a second step a few similar examples are extracted from the PE-TM to prompt an LLM. Our experiment shows that the additional effort of augmenting translations with human error markings guides the LLM to focus on a correction of the marked errors, yielding consistent improvements over automatic PE (APE) and MT from scratch.

Prompting Large Language Models with Human Error Markings for Self-Correcting Machine Translation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理