Self-Preference Bias in LLM-as-a-Judge

📄 arXiv: 2410.21819v2 📥 PDF

作者: Koki Wataoka, Tsubasa Takahashi, Ryokan Ri

分类: cs.CL

发布日期: 2024-10-29 (更新: 2025-06-21)

备注: Accepted at NeurIPS 2024 Safe Generative AI Workshop


💡 一句话要点

提出一种定量指标以评估LLM作为评估者时的自偏好偏差,揭示偏差源于对低困惑度文本的偏爱。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 自偏好偏差 LLM评估 困惑度 定量评估

📋 核心要点

  1. 现有LLM评估方法缺乏量化自偏好偏差的有效手段,导致对LLM评估结果的可靠性产生质疑。
  2. 论文提出一种新的定量指标来衡量LLM的自偏好偏差,通过分析LLM评估与输出困惑度之间的关系来探究偏差的根本原因。
  3. 实验结果表明GPT-4存在显著的自偏好偏差,且LLM倾向于给予低困惑度输出更高的评价,揭示偏差源于对熟悉文本的偏爱。

📝 摘要(中文)

大型语言模型(LLM)作为评估者已被广泛应用于衡量对话系统的性能。然而,LLM的自偏好偏差带来了显著风险,包括推广LLM固有的特定风格或策略。尽管这个问题很重要,但缺乏量化自偏好偏差的既定方法,并且对其根本原因的理解不足。本文提出了一种新的定量指标来衡量自偏好偏差。实验结果表明,GPT-4表现出显著的自偏好偏差。为了探究其原因,我们假设LLM可能更喜欢它们更熟悉的输出,如较低的困惑度所示。我们分析了LLM评估和输出困惑度之间的关系。我们的发现表明,无论输出是否为LLM自身生成,LLM对困惑度较低的输出的评价显著高于人类评估者。这表明偏差的本质在于困惑度,自偏好偏差的存在是因为LLM更喜欢它们更熟悉的文本。

🔬 方法详解

问题定义:论文旨在解决LLM作为评估者时存在的自偏好偏差问题。现有方法缺乏有效的量化指标来衡量这种偏差,导致无法准确评估LLM评估结果的可靠性,并且对偏差的根本原因缺乏深入理解。这种偏差可能导致LLM评估结果偏向于自身生成的或风格相似的输出,从而影响对话系统等应用的公平性和客观性。

核心思路:论文的核心思路是提出一种新的定量指标来衡量LLM的自偏好偏差,并通过分析LLM评估结果与输出文本困惑度之间的关系来探究偏差的根本原因。作者假设LLM更倾向于评估它们更熟悉的文本(即困惑度较低的文本),并验证这一假设是否成立。

技术框架:论文的技术框架主要包括以下几个步骤:1) 定义自偏好偏差的定量指标;2) 使用该指标评估GPT-4等LLM的自偏好偏差程度;3) 分析LLM评估结果与输出文本困惑度之间的关系;4) 将LLM的评估结果与人类评估结果进行对比,以验证LLM是否更倾向于评估低困惑度的文本。

关键创新:论文最重要的技术创新点在于提出了一种新的定量指标来衡量LLM的自偏好偏差。该指标能够有效地量化LLM在评估过程中对自身生成或风格相似的输出的偏好程度。此外,通过分析LLM评估结果与输出文本困惑度之间的关系,论文揭示了自偏好偏差的根本原因在于LLM对熟悉文本的偏爱。

关键设计:论文的关键设计包括:1) 自偏好偏差指标的定义方式,需要能够准确反映LLM对自身生成或风格相似的输出的偏好程度;2) 困惑度的计算方法,需要选择合适的语言模型来计算输出文本的困惑度;3) 实验数据的选择,需要包含LLM自身生成和非LLM生成的输出,以及人类评估结果,以便进行对比分析。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GPT-4表现出显著的自偏好偏差。更重要的是,研究发现LLM对困惑度较低的输出的评价显著高于人类评估者,无论这些输出是否由LLM自身生成。这表明LLM的自偏好偏差本质上是对熟悉文本(低困惑度文本)的偏爱,而非仅仅是对自身生成内容的偏爱。

🎯 应用场景

该研究成果可应用于改进LLM评估方法,提高对话系统等应用的评估公平性和客观性。通过消除或减轻LLM的自偏好偏差,可以更准确地评估不同对话系统的性能,从而促进对话系统技术的进步。此外,该研究还可以应用于其他需要LLM进行评估的领域,例如文本生成、机器翻译等。

📄 摘要(原文)

Automated evaluation leveraging large language models (LLMs), commonly referred to as LLM evaluators or LLM-as-a-judge, has been widely used in measuring the performance of dialogue systems. However, the self-preference bias in LLMs has posed significant risks, including promoting specific styles or policies intrinsic to the LLMs. Despite the importance of this issue, there is a lack of established methods to measure the self-preference bias quantitatively, and its underlying causes are poorly understood. In this paper, we introduce a novel quantitative metric to measure the self-preference bias. Our experimental results demonstrate that GPT-4 exhibits a significant degree of self-preference bias. To explore the causes, we hypothesize that LLMs may favor outputs that are more familiar to them, as indicated by lower perplexity. We analyze the relationship between LLM evaluations and the perplexities of outputs. Our findings reveal that LLMs assign significantly higher evaluations to outputs with lower perplexity than human evaluators, regardless of whether the outputs were self-generated. This suggests that the essence of the bias lies in perplexity and that the self-preference bias exists because LLMs prefer texts more familiar to them.