Same evaluation, more tokens: On the effect of input length for machine translation evaluation using Large Language Models

📄 arXiv: 2505.01761v2 📥 PDF

作者: Tobias Domhan, Dawei Zhu

分类: cs.CL

发布日期: 2025-05-03 (更新: 2025-10-03)

备注: Accepted at EMNLP 2025 (Main Conference)


💡 一句话要点

研究表明输入长度影响LLM机器翻译评估,提出FSP和微调方法缓解该问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器翻译评估 大型语言模型 长度偏差 焦点句子提示 微调 MQM 长文本处理

📋 核心要点

  1. 现有机器翻译评估方法在长文档上表现不佳,依赖人工评估成本高昂。
  2. 提出焦点句子提示(FSP)和微调策略,使LLM更好地适应长文本评估任务。
  3. 实验表明,FSP和微调方法能有效缓解长度偏差,提高长文本评估的可靠性。

📝 摘要(中文)

准确评估机器翻译文本,特别是长文档,仍然是一个长期存在的挑战。最近的研究表明,大型语言模型(LLM)可以通过MQM错误跨度标注作为可靠且可解释的句子级翻译评估器。随着现代LLM支持更大的上下文窗口,一个自然而然的问题出现了:我们是否可以将整个文档翻译输入到LLM中进行质量评估?理想情况下,评估应该与文本长度无关,无论输入粒度如何,都能产生一致的错误跨度。然而,我们的分析表明,文本长度会显著影响评估:较长的文本会导致较少的错误跨度,并降低系统排名准确性。为了解决这个限制,我们评估了几种策略,包括粒度对齐提示、焦点句子提示(FSP)和微调方法,以更好地使LLM与评估任务对齐。后两种方法在很大程度上缓解了这种长度偏差,使LLM对于长文本翻译评估更加可靠。

🔬 方法详解

问题定义:论文旨在解决使用大型语言模型(LLM)评估机器翻译质量时,输入文本长度对评估结果产生偏差的问题。现有方法在评估长文档翻译时,LLM倾向于标注更少的错误跨度,导致系统排名准确性下降。这种长度偏差使得LLM在长文本翻译评估中的可靠性降低。

核心思路:论文的核心思路是通过调整LLM的输入方式和训练方式,使其对不同长度的文本产生一致的评估结果。具体来说,论文探索了粒度对齐提示、焦点句子提示(FSP)和微调方法。FSP的核心思想是每次只向LLM提供需要评估的句子及其上下文,从而减少输入长度的影响。微调方法则是通过在特定数据集上训练LLM,使其更好地适应翻译评估任务。

技术框架:论文主要包含以下几个阶段:1) 使用LLM进行机器翻译评估,并分析输入长度对评估结果的影响;2) 提出并评估粒度对齐提示、FSP和微调方法;3) 对比不同方法的性能,并分析其优缺点。FSP方法涉及确定焦点句子及其上下文窗口大小。微调方法则需要准备训练数据,并选择合适的训练策略。

关键创新:论文的关键创新在于发现了输入长度对LLM机器翻译评估的影响,并提出了FSP和微调方法来缓解这种影响。FSP方法通过限制每次输入到LLM的文本长度,减少了长度偏差。微调方法则通过训练LLM,使其更好地适应翻译评估任务。

关键设计:FSP的关键设计在于如何选择焦点句子和确定上下文窗口大小。论文可能探索了不同的上下文窗口大小,并评估其对评估结果的影响。微调方法的关键设计在于选择合适的训练数据、损失函数和训练策略。论文可能使用了MQM错误标注数据作为训练数据,并采用了交叉熵损失函数或类似的损失函数。具体的网络结构可能基于现有的LLM架构,如Transformer。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,焦点句子提示(FSP)和微调方法能够显著缓解输入长度对LLM机器翻译评估的影响。与直接使用LLM评估整个文档相比,FSP和微调方法能够产生更一致的错误跨度,并提高系统排名准确性。具体的性能提升数据未知,但论文强调了这两种方法在缓解长度偏差方面的有效性。

🎯 应用场景

该研究成果可应用于机器翻译系统的自动评估,尤其是在处理长文档翻译时。通过使用FSP或微调后的LLM,可以更准确地评估翻译质量,从而加速翻译系统的开发和改进。此外,该方法还可以应用于其他文本生成任务的评估,例如文本摘要和对话生成。

📄 摘要(原文)

Accurately evaluating machine-translated text remains a long-standing challenge, particularly for long documents. Recent work has shown that large language models (LLMs) can serve as reliable and interpretable sentence-level translation evaluators via MQM error span annotations. With modern LLMs supporting larger context windows, a natural question arises: can we feed entire document translations into an LLM for quality assessment? Ideally, evaluation should be invariant to text length, producing consistent error spans regardless of input granularity. However, our analysis shows that text length significantly impacts evaluation: longer texts lead to fewer error spans and reduced system ranking accuracy. To address this limitation, we evaluate several strategies, including granularity-aligned prompting, Focus Sentence Prompting (FSP), and a fine-tuning approach to better align LLMs with the evaluation task. The latter two methods largely mitigate this length bias, making LLMs more reliable for long-form translation evaluation.