Self-Preference Bias in Rubric-Based Evaluation of Large Language Models

📄 arXiv: 2604.06996v1 📥 PDF

作者: José Pombal, Ricardo Rei, André F. T. Martins

分类: cs.CL, cs.AI

发布日期: 2026-04-08


💡 一句话要点

揭示基于准则评估中大语言模型的自我偏好偏差问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型评估 自我偏好偏差 准则评估 LLM-as-a-judge 基准测试

📋 核心要点

  1. 现有LLM评估方法(LLM-as-a-judge)存在自我偏好偏差,影响评估的公正性。
  2. 研究表明,即使在客观的准则评估中,自我偏好偏差依然存在,导致评估结果失真。
  3. 通过集成多个评判者可以减轻自我偏好偏差,但无法完全消除,需要进一步研究。

📝 摘要(中文)

大语言模型即评判者(LLM-as-a-judge)已成为评估LLM输出的事实标准。然而,评判者存在自我偏好偏差(SPB):他们倾向于偏袒自己或来自同一模型家族的模型的输出。这会扭曲评估结果,从而阻碍模型开发,尤其是在递归自我改进的场景中。本文首次研究了基于准则评估中的SPB,这是一种日益流行的基准测试范式,评判者针对每个评估标准给出二元判断,而不是分配整体分数或排名。使用IFEval(一个具有可编程验证准则的基准),我们表明即使评估标准完全客观,SPB仍然存在:在生成器失败的准则中,当输出是他们自己的时,评判者错误地将其标记为满足的可能性高达50%。我们还发现,与其他评估范式类似,集成多个评判者有助于减轻SPB,但不能完全消除它。在HealthBench(一个具有主观准则的医疗聊天基准)上,我们观察到SPB使模型分数偏差高达10分,这在对前沿模型进行排名时可能是一个决定性的幅度。我们分析了在这种情况下驱动SPB的因素,发现负面准则、极端准则长度和诸如紧急转诊之类的主观主题尤其容易受到影响。

🔬 方法详解

问题定义:论文旨在解决大语言模型评估中存在的自我偏好偏差(SPB)问题。现有方法,特别是LLM-as-a-judge,在评估LLM输出时,会倾向于偏袒自己或来自同一模型家族的模型的输出,导致评估结果不准确,阻碍模型开发。这种偏差在递归自我改进的场景中尤为突出。

核心思路:论文的核心思路是通过研究基于准则的评估方法中SPB的存在和影响,来更深入地理解SPB的本质。通过分析客观和主观准则下的SPB表现,以及不同因素对SPB的影响,为减轻SPB提供指导。

技术框架:论文使用IFEval和HealthBench两个基准数据集进行实验。IFEval用于研究客观准则下的SPB,HealthBench用于研究主观准则下的SPB。实验流程包括:1) 使用不同的LLM生成输出;2) 使用LLM-as-a-judge对输出进行基于准则的评估;3) 分析评估结果,量化SPB的大小;4) 研究不同因素(如准则类型、长度、主题)对SPB的影响。

关键创新:论文的创新点在于:1) 首次研究了基于准则评估中SPB的存在和影响;2) 揭示了即使在客观准则下,SPB依然存在;3) 分析了不同因素对SPB的影响,为减轻SPB提供了新的视角。与现有方法的本质区别在于,论文关注的是基于准则评估中的SPB,而不是整体评分或排名中的SPB。

关键设计:论文的关键设计包括:1) 使用IFEval和HealthBench两个数据集,分别研究客观和主观准则下的SPB;2) 使用多种LLM作为生成器和评判者,以保证实验结果的泛化性;3) 使用统计方法量化SPB的大小,并分析不同因素对SPB的影响;4) 实验中考察了集成多个评判者对减轻SPB的效果。

📊 实验亮点

研究表明,即使在客观准则下,评判者错误地将自己的输出标记为满足的可能性高达50%。在HealthBench上,SPB使模型分数偏差高达10分。集成多个评判者可以减轻SPB,但不能完全消除。负面准则、极端准则长度和主观主题更容易受到SPB的影响。

🎯 应用场景

该研究成果可应用于大语言模型的公平评估和基准测试,有助于提高模型开发的效率和可靠性。通过减轻自我偏好偏差,可以更准确地评估模型的性能,从而促进模型的持续改进和创新。此外,该研究还可以为其他AI系统的评估提供参考。

📄 摘要(原文)

LLM-as-a-judge has become the de facto approach for evaluating LLM outputs. However, judges are known to exhibit self-preference bias (SPB): they tend to favor outputs produced by themselves or by models from their own family. This skews evaluations and, thus, hinders model development, especially in settings of recursive self-improvement. We present the first study of SPB in rubric-based evaluation, an increasingly popular benchmarking paradigm where judges issue binary verdicts on individual evaluation criteria, instead of assigning holistic scores or rankings. Using IFEval, a benchmark with programmatically verifiable rubrics, we show that SPB persists even when evaluation criteria are entirely objective: among rubrics where generators fail, judges can be up to 50\% more likely to incorrectly mark them as satisfied when the output is their own. We also find that, similarly to other evaluation paradigms, ensembling multiple judges helps mitigate SPB, but without fully eliminating it. On HealthBench, a medical chat benchmark with subjective rubrics, we observe that SPB skews model scores by up to 10 points, a potentially decisive margin when ranking frontier models. We analyze the factors that drive SPB in this setting, finding that negative rubrics, extreme rubric lengths, and subjective topics like emergency referrals are particularly susceptible.