Deconstructing Self-Bias in LLM-generated Translation Benchmarks

📄 arXiv: 2509.26600v1 📥 PDF

作者: Wenda Xu, Sweta Agrawal, Vilém Zouhar, Markus Freitag, Daniel Deutsch

分类: cs.CL, cs.AI

发布日期: 2025-09-30


💡 一句话要点

揭示LLM生成翻译评测基准中的自偏见问题,并提出缓解策略

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 机器翻译 自动评估 基准测试 自偏见 低资源语言 文本多样性

📋 核心要点

  1. 现有翻译基准依赖人工,成本高且速度慢,LLM自动生成基准成为一种有潜力的替代方案。
  2. 该研究揭示了LLM生成基准存在严重的自偏见问题,即偏袒生成该基准的模型。
  3. 实验表明,自偏见源于测试数据和评估方法,并受源语言生成能力和文本多样性的影响。

📝 摘要(中文)

随着大型语言模型(LLMs)逐渐饱和现有基准,使用LLM自动创建基准(LLM作为基准)已成为一种可扩展的替代方案,以取代缓慢且昂贵的人工管理。虽然这些生成的测试集有潜力以低成本对模型进行排名,但我们展示了一个关键缺陷。LLM生成的基准系统性地偏袒创建该基准的模型,它们在低资源语言到英语的翻译任务中表现出自我偏见。我们展示了关于LLM自动基准测试翻译的三个关键发现:首先,这种偏见源于两个来源:生成的测试数据(LLM作为测试集)和评估方法(LLM作为评估器),它们的组合放大了这种效应。其次,LLM作为基准的自我偏见受到模型在源语言中的生成能力的严重影响。例如,我们观察到在英语翻译任务中,模型生成系统得到开发的偏见比在英语翻译任务中更为明显。第三,我们观察到源文本中低多样性是自我偏见的一个原因。我们的结果表明,提高这些生成的源文本的多样性可以减轻一些观察到的自我偏见。

🔬 方法详解

问题定义:论文旨在解决LLM自动生成翻译基准时存在的自偏见问题。现有的人工基准构建成本高昂,而利用LLM自动生成基准虽然降低了成本,但存在系统性地偏袒生成基准模型的缺陷,导致评估结果不准确,无法真实反映模型的翻译能力。

核心思路:论文的核心思路是深入分析LLM生成基准中自偏见的来源,并探究影响自偏见的因素。通过实验分析,确定自偏见来源于生成的测试数据和评估方法,并受源语言生成能力和文本多样性的影响。基于此,提出通过提高源文本多样性来缓解自偏见。

技术框架:该研究主要通过实验分析来揭示和量化自偏见。整体流程包括:1) 使用不同的LLM生成翻译测试集;2) 使用不同的LLM作为评估器对翻译结果进行评估;3) 分析评估结果,量化自偏见程度;4) 探究源语言生成能力和文本多样性对自偏见的影响;5) 提出通过提高源文本多样性来缓解自偏见的策略。

关键创新:该研究最重要的创新点在于揭示了LLM自动生成翻译基准中普遍存在的自偏见问题,并深入分析了自偏见的来源和影响因素。与以往研究主要关注基准的构建方法不同,该研究关注基准的评估偏差,为构建更可靠的自动评估基准提供了新的视角。

关键设计:论文的关键设计在于实验分析的设计。通过控制变量,分别考察了生成测试集的LLM、评估LLM以及源语言生成能力和文本多样性对自偏见的影响。例如,通过比较不同LLM生成的测试集对同一翻译模型的评估结果,来量化生成测试集带来的自偏见。此外,论文还探索了提高源文本多样性的方法,例如使用不同的prompt或数据增强技术,来缓解自偏见。

📊 实验亮点

研究表明,LLM生成的基准会系统性地偏袒生成该基准的模型。自偏见来源于测试数据和评估方法,且在低资源语言到英语的翻译任务中更为明显。提高源文本的多样性可以有效缓解自偏见。例如,通过增加源文本的多样性,可以降低模型对自己生成内容的过度偏好。

🎯 应用场景

该研究成果可应用于改进LLM自动生成基准的构建方法,提高翻译模型评估的准确性和可靠性。通过降低自偏见,可以更公平地比较不同翻译模型的性能,促进翻译技术的进步。此外,该研究的思路和方法也可以推广到其他自然语言处理任务的自动基准构建中。

📄 摘要(原文)

As large language models (LLMs) begin to saturate existing benchmarks, automated benchmark creation using LLMs (LLM as a benchmark) has emerged as a scalable alternative to slow and costly human curation. While these generated test sets have to potential to cheaply rank models, we demonstrate a critical flaw. LLM generated benchmarks systematically favor the model that created the benchmark, they exhibit self bias on low resource languages to English translation tasks. We show three key findings on automatic benchmarking of LLMs for translation: First, this bias originates from two sources: the generated test data (LLM as a testset) and the evaluation method (LLM as an evaluator), with their combination amplifying the effect. Second, self bias in LLM as a benchmark is heavily influenced by the model's generation capabilities in the source language. For instance, we observe more pronounced bias in into English translation, where the model's generation system is developed, than in out of English translation tasks. Third, we observe that low diversity in source text is one attribution to self bias. Our results suggest that improving the diversity of these generated source texts can mitigate some of the observed self bias.