Large Language Models as Annotators for Machine Translation Quality Estimation

📄 arXiv: 2603.10775v1 📥 PDF

作者: Sidi Wang, Sophie Arnoult, Amir Kamran

分类: cs.CL

发布日期: 2026-03-11

备注: 11 pages, 3 figures


💡 一句话要点

利用大语言模型生成标注数据,提升机器翻译质量评估模型性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器翻译质量评估 大语言模型 标注生成 COMET模型 MQM 提示工程 GPT-4o

📋 核心要点

  1. 现有机器翻译质量评估方法推理成本高昂,难以直接应用。
  2. 利用大语言模型生成MQM风格的标注数据,训练轻量级的COMET模型。
  3. 实验表明,该方法在汉英和英德翻译质量评估任务上取得了有竞争力的性能。

📝 摘要(中文)

大语言模型(LLMs)在机器翻译质量评估(MTQE)方面表现出色,但其高昂的推理成本使其难以直接应用。本文提出利用LLMs生成MQM风格的标注数据,用于训练COMET模型。借鉴Fernandes等人(2023)的研究,我们认为段落级别的标注为LLMs提供了强有力的依据,是实现良好段落级别质量评估的关键。我们提出了一种简化的MQM方案,主要限制在顶层类别,以指导LLM的选择。我们提出了一种基于GPT-4o提示词的系统方法,称为PPbMQM(基于提示模式的MQM)。结果表明,生成的标注与人工标注具有良好的相关性,并且在此基础上训练的COMET模型在汉英和英德段落级别质量评估中表现出具有竞争力的性能。

🔬 方法详解

问题定义:论文旨在解决机器翻译质量评估(MTQE)中,直接使用大型语言模型(LLM)进行推理成本过高的问题。现有的MTQE方法要么依赖于计算成本高的LLM直接推理,要么依赖于人工标注数据,而人工标注成本高昂且耗时。

核心思路:论文的核心思路是利用LLM的强大能力生成高质量的机器翻译质量评估标注数据,然后使用这些数据训练一个更小、更高效的COMET模型。这样既能利用LLM的知识,又能降低推理成本。

技术框架:整体框架包含以下几个主要步骤:1) 设计简化的MQM标注方案,主要关注顶层类别,以指导LLM的选择;2) 开发基于GPT-4o的提示词(PPbMQM),用于生成MQM风格的标注;3) 使用LLM生成的标注数据训练COMET模型;4) 在汉英和英德翻译质量评估任务上评估COMET模型的性能。

关键创新:关键创新在于提出了一种系统化的方法,利用LLM生成高质量的MQM风格标注数据,从而避免了直接使用LLM进行推理的高成本。此外,PPbMQM提示词的设计也是一个创新点,它能够有效地引导LLM生成与人工标注具有良好相关性的标注数据。

关键设计:论文设计了一种简化的MQM方案,主要限制在顶层类别,以降低标注的复杂性。PPbMQM提示词的设计考虑了多种提示模式,并通过实验选择最佳的提示词组合。COMET模型的训练使用了标准的损失函数和优化器,具体参数设置未知。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,使用LLM生成的标注数据训练的COMET模型在汉英和英德段落级别质量评估任务上取得了具有竞争力的性能。生成的标注与人工标注具有良好的相关性,证明了该方法的有效性。具体的性能数据和对比基线未知。

🎯 应用场景

该研究成果可应用于机器翻译系统的自动质量评估,帮助用户快速了解翻译质量,并为翻译系统的改进提供反馈。此外,该方法还可以扩展到其他自然语言处理任务中,例如文本摘要、文本生成等,通过LLM生成标注数据,训练更高效的模型。

📄 摘要(原文)

Large Language Models (LLMs) have demonstrated excellent performance on Machine Translation Quality Estimation (MTQE), yet their high inference costs make them impractical for direct application. In this work, we propose applying LLMs to generate MQM-style annotations for training a COMET model: following Fernandes et al. (2023), we reckon that segment-level annotations provide a strong rationale for LLMs and are key to good segment-level QE. We propose a simplified MQM scheme, mostly restricted to top-level categories, to guide LLM selection. We present a systematic approach for the development of a GPT-4o-based prompt, called PPbMQM (Prompt-Pattern-based-MQM). We show that the resulting annotations correlate well with human annotations and that training COMET on them leads to competitive performance on segment-level QE for Chinese-English and English-German.