An LLM-as-a-judge Approach for Scalable Gender-Neutral Translation Evaluation

📄 arXiv: 2504.11934v1 📥 PDF

作者: Andrea Piergentili, Beatrice Savoldi, Matteo Negri, Luisa Bentivogli

分类: cs.CL

发布日期: 2025-04-16

备注: Accepted at GITT 2025


💡 一句话要点

提出基于LLM的性别中立翻译评估方法,提升评估准确性和可扩展性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 性别中立翻译 机器翻译评估 大型语言模型 Prompt工程 思维链 自然语言处理

📋 核心要点

  1. 现有性别中立翻译评估方法依赖单语分类器,忽略源语句信息,且扩展性差,需要大量数据和微调。
  2. 该论文提出利用大型语言模型(LLM)作为评估器,通过设计不同的prompt策略,实现更准确和可扩展的GNT评估。
  3. 实验结果表明,LLM能够有效评估GNT,并且先进行短语级别标注再进行句子级别评估的prompt策略效果更佳。

📝 摘要(中文)

性别中立翻译(GNT)旨在避免在源文本缺乏明确性别线索时表达人类指代的性别。自动评估GNT极具挑战性,现有解决方案仅限于单语分类器。这些方案并不理想,因为它们没有考虑源语句,并且需要专门的数据和微调才能扩展到新的语言。本文通过研究使用大型语言模型(LLM)作为GNT的评估器来解决这些限制。具体来说,我们探索了两种提示方法:一种是LLM仅生成句子级别的评估,另一种类似于思维链方法,LLM首先生成详细的短语级别注释,然后再进行句子级别的判断。通过对多种语言和五个模型(包括开源和专有模型)进行的大量实验,我们表明LLM可以作为GNT的评估器。此外,我们发现,在句子级别评估之前提示进行短语级别注释可以持续提高所有模型的准确性,从而为当前解决方案提供更好且更具可扩展性的替代方案。

🔬 方法详解

问题定义:性别中立翻译旨在避免在翻译过程中引入不必要的性别信息,尤其是在源语言没有明确性别指示的情况下。现有的自动评估方法,如单语分类器,存在几个痛点:一是忽略了源语言的信息,二是需要针对不同语言进行单独训练和微调,扩展性较差,三是需要大量标注数据。

核心思路:该论文的核心思路是利用大型语言模型(LLM)的强大语言理解和生成能力,将其作为性别中立翻译的评估器。通过精心设计的prompt,引导LLM理解源语言和目标语言的语义,并判断翻译是否准确地避免了性别偏见。这样可以避免对每个语言都进行单独训练,提高评估的通用性和可扩展性。

技术框架:整体框架包含以下几个步骤:1. 输入源语句和翻译后的语句;2. 使用不同的prompt策略引导LLM进行评估,包括直接进行句子级别评估和先进行短语级别标注再进行句子级别评估;3. LLM根据prompt生成评估结果,包括句子级别的判断和短语级别的标注(如果使用该prompt策略);4. 对LLM的评估结果进行分析和比较,评估不同prompt策略的效果。

关键创新:该论文的关键创新在于将LLM应用于性别中立翻译的自动评估,并提出了两种不同的prompt策略。其中,先进行短语级别标注再进行句子级别评估的prompt策略,借鉴了思维链(Chain-of-Thought)的思想,通过让LLM逐步分析和推理,提高评估的准确性。这种方法避免了对每个语言都进行单独训练,提高了评估的通用性和可扩展性。

关键设计:论文的关键设计在于prompt的设计。两种prompt策略分别是:1. 直接进行句子级别评估:直接要求LLM判断翻译后的句子是否符合性别中立的要求。2. 先进行短语级别标注再进行句子级别评估:首先要求LLM对句子中的关键短语进行标注,判断这些短语是否带有性别偏见,然后再根据短语级别的标注结果,综合判断整个句子是否符合性别中立的要求。没有提及具体的损失函数或网络结构,因为该方法主要依赖于LLM的预训练能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM可以作为性别中立翻译的有效评估器。特别是,先进行短语级别标注再进行句子级别评估的prompt策略,在多个语言和模型上都取得了更好的效果,显著提高了评估的准确性。具体性能数据未在摘要中体现,但强调了该prompt策略的一致性提升。

🎯 应用场景

该研究成果可应用于机器翻译系统的自动评估,提高翻译质量,减少性别偏见。同时,该方法也为其他自然语言处理任务的评估提供了一种新的思路,即利用LLM的强大能力进行自动评估,降低人工评估的成本和时间。

📄 摘要(原文)

Gender-neutral translation (GNT) aims to avoid expressing the gender of human referents when the source text lacks explicit cues about the gender of those referents. Evaluating GNT automatically is particularly challenging, with current solutions being limited to monolingual classifiers. Such solutions are not ideal because they do not factor in the source sentence and require dedicated data and fine-tuning to scale to new languages. In this work, we address such limitations by investigating the use of large language models (LLMs) as evaluators of GNT. Specifically, we explore two prompting approaches: one in which LLMs generate sentence-level assessments only, and another, akin to a chain-of-thought approach, where they first produce detailed phrase-level annotations before a sentence-level judgment. Through extensive experiments on multiple languages with five models, both open and proprietary, we show that LLMs can serve as evaluators of GNT. Moreover, we find that prompting for phrase-level annotations before sentence-level assessments consistently improves the accuracy of all models, providing a better and more scalable alternative to current solutions.