Deconstructing Self-Bias in LLM-generated Translation Benchmarks
作者: Wenda Xu, Sweta Agrawal, Vilém Zouhar, Markus Freitag, Daniel Deutsch
分类: cs.CL, cs.AI
发布日期: 2025-09-30
💡 一句话要点
揭示LLM生成翻译评测基准中的自偏见问题,并提出缓解策略。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 机器翻译 自动评测 自偏见 低资源语言 基准测试 评估方法
📋 核心要点
- 现有翻译基准依赖人工,成本高且速度慢,LLM自动生成基准成为一种潜在的替代方案。
- 该研究发现LLM生成的翻译基准存在“自偏见”,即偏袒生成基准的模型,尤其是在低资源语言翻译中。
- 实验表明,自偏见源于测试数据和评估方法,并受源语言生成能力和文本多样性的影响。
📝 摘要(中文)
随着大型语言模型(LLMs)逐渐饱和现有基准,使用LLMs自动创建基准(LLM作为基准)已成为一种可扩展的替代方案,以取代缓慢且昂贵的人工管理。虽然这些生成的测试集具有廉价地对模型进行排序的潜力,但我们展示了一个关键缺陷。LLM生成的基准系统性地偏袒创建该基准的模型,它们在低资源语言到英语的翻译任务中表现出自我偏见。我们展示了关于LLMs自动基准测试翻译的三个关键发现:首先,这种偏见源于两个来源:生成的测试数据(LLM作为测试集)和评估方法(LLM作为评估器),它们的组合放大了这种效应。其次,LLM作为基准的自我偏见受到模型在源语言中的生成能力的严重影响。例如,我们观察到在英语翻译任务中比在英语翻译任务中更明显的偏见,因为模型的生成系统是在英语翻译任务中开发的。第三,我们观察到源文本的低多样性是自我偏见的一个原因。我们的结果表明,提高这些生成的源文本的多样性可以减轻一些观察到的自我偏见。
🔬 方法详解
问题定义:论文旨在解决LLM自动生成翻译评测基准时存在的自偏见问题。现有的人工基准成本高昂,而LLM生成的基准虽然高效,但会系统性地偏袒生成该基准的模型,导致评估结果失真,无法公平地比较不同模型的翻译能力。这种自偏见在低资源语言翻译任务中尤为明显。
核心思路:论文的核心思路是解构自偏见的来源,并探究其影响因素。通过分析LLM生成测试数据和评估过程,发现自偏见源于两方面:一是LLM作为测试集时,生成的数据本身就可能偏向于生成模型的风格;二是LLM作为评估器时,可能更倾向于给出与自身生成风格一致的翻译更高的分数。此外,源语言的生成能力和文本多样性也会影响自偏见的程度。
技术框架:论文没有提出新的技术框架,而是采用实验分析的方法来研究自偏见。主要包括以下几个步骤:1) 使用不同的LLM生成翻译测试集;2) 使用不同的LLM作为评估器,对不同模型的翻译结果进行评分;3) 分析评估结果,量化自偏见的程度;4) 研究源语言生成能力和文本多样性对自偏见的影响。
关键创新:论文的关键创新在于首次系统性地揭示了LLM生成翻译评测基准中的自偏见问题,并分析了其来源和影响因素。这对于构建更公平、可靠的自动翻译评测体系具有重要意义。
关键设计:论文的关键设计在于实验设置,通过控制不同的变量(例如,生成测试集的LLM、评估器的LLM、源语言的生成能力、源文本的多样性),来分析这些变量对自偏见的影响。例如,通过比较不同源语言到英语的翻译任务,来研究源语言生成能力的影响;通过控制源文本的多样性,来研究文本多样性对自偏见的影响。
🖼️ 关键图片
📊 实验亮点
研究表明,LLM生成的翻译基准存在显著的自偏见,这种偏见源于测试数据和评估方法两方面。实验发现,自偏见程度与源语言的生成能力和文本多样性密切相关。提高源文本的多样性可以有效缓解自偏见。
🎯 应用场景
该研究成果可应用于改进自动翻译评测体系,构建更公平、可靠的LLM生成基准。通过降低自偏见,可以更准确地评估不同翻译模型的性能,推动翻译技术的进步。此外,该研究也为其他LLM生成任务的基准构建提供了借鉴,避免类似的偏见问题。
📄 摘要(原文)
As large language models (LLMs) begin to saturate existing benchmarks, automated benchmark creation using LLMs (LLM as a benchmark) has emerged as a scalable alternative to slow and costly human curation. While these generated test sets have to potential to cheaply rank models, we demonstrate a critical flaw. LLM generated benchmarks systematically favor the model that created the benchmark, they exhibit self bias on low resource languages to English translation tasks. We show three key findings on automatic benchmarking of LLMs for translation: First, this bias originates from two sources: the generated test data (LLM as a testset) and the evaluation method (LLM as an evaluator), with their combination amplifying the effect. Second, self bias in LLM as a benchmark is heavily influenced by the model's generation capabilities in the source language. For instance, we observe more pronounced bias in into English translation, where the model's generation system is developed, than in out of English translation tasks. Third, we observe that low diversity in source text is one attribution to self bias. Our results suggest that improving the diversity of these generated source texts can mitigate some of the observed self bias.