Am I More Pointwise or Pairwise? Revealing Position Bias in Rubric-Based LLM-as-a-Judge
作者: Yuzheng Xu, Tosho Hirasawa, Tadashi Kozuno, Yoshitaka Ushiku
分类: cs.CL
发布日期: 2026-02-02
💡 一句话要点
揭示基于评分细则的LLM评判中的位置偏差,并提出平衡排列策略进行缓解。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM评判 位置偏差 评分细则 平衡排列 文本评估
📋 核心要点
- 现有LLM评判方法主要集中于逐点和成对评估,忽略了基于评分细则评估中可能存在的位置偏差问题。
- 论文提出一种平衡排列策略,通过均匀分布评分选项的位置来减轻LLM评判中的位置偏差。
- 实验表明,该策略不仅揭示了位置偏差,还提高了LLM评判与人类评估的相关性,提升了评判可靠性。
📝 摘要(中文)
大型语言模型(LLMs)现在被广泛用于评估文本质量,这一领域通常被称为LLM-as-a-judge。虽然之前的工作主要集中在逐点和成对评估范式上,但基于评分细则的评估(其中LLMs从多个评分细则中选择一个分数)受到的分析较少。在这项工作中,我们表明基于评分细则的评估隐式地类似于多项选择设置,因此具有位置偏差:LLMs更喜欢出现在评分细则列表特定位置的分数选项。通过跨多个模型和数据集的受控实验,我们证明了一致的位置偏差。为了减轻这种偏差,我们提出了一种平衡排列策略,该策略将每个分数选项均匀地分布在各个位置。我们表明,聚合平衡排列的分数不仅揭示了潜在的位置偏差,而且还提高了LLM-as-a-Judge与人类之间的相关性。我们的结果表明,基于评分细则的LLM-as-a-Judge并非本质上是逐点的,并且简单的基于排列的校准可以大大提高其可靠性。
🔬 方法详解
问题定义:论文旨在解决基于评分细则的LLM评判中存在的位置偏差问题。现有方法忽略了评分选项在列表中的位置对LLM选择的影响,导致评判结果可能受到位置偏差的干扰,从而降低了评判的准确性和可靠性。
核心思路:论文的核心思路是认识到基于评分细则的LLM评判类似于多项选择问题,而多项选择问题中存在位置偏差。因此,通过控制评分选项在列表中的位置,可以减轻位置偏差的影响。具体而言,采用平衡排列策略,确保每个评分选项在不同排列中出现在每个位置的次数大致相等。
技术框架:该方法主要包含以下几个阶段:1) 使用LLM对文本进行基于评分细则的评估,生成多个排列的评分结果。2) 对每个排列,LLM根据评分细则选择一个分数。3) 对所有排列的评分结果进行聚合,例如计算平均值或中位数。4) 将聚合后的评分结果与人类评估结果进行比较,评估位置偏差的影响和平衡排列策略的效果。
关键创新:论文的关键创新在于:1) 首次揭示了基于评分细则的LLM评判中存在显著的位置偏差。2) 提出了一种简单有效的平衡排列策略来减轻这种偏差。3) 实验证明,该策略不仅能够揭示潜在的位置偏差,还能提高LLM评判与人类评估的相关性。
关键设计:平衡排列策略是关键设计。具体实现方法是,对于n个评分选项,生成n!种排列,或者生成n!的子集,保证每个选项出现在每个位置的次数大致相等。在实验中,论文使用了不同的LLM模型和数据集,并调整了提示语(prompt)以适应不同的评估任务。聚合评分结果时,使用了平均值和中位数两种方法,并比较了它们的效果。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在多个模型和数据集上,基于评分细则的LLM评判都存在显著的位置偏差。通过应用平衡排列策略,LLM评判与人类评估的相关性得到了显著提高。例如,在某些数据集上,相关性提升了超过10%。这表明平衡排列策略能够有效地减轻位置偏差,提高LLM评判的可靠性。
🎯 应用场景
该研究成果可应用于各种需要使用LLM进行文本质量评估的场景,例如自动作文评分、代码评审、论文评审等。通过减轻位置偏差,可以提高LLM评判的公平性和可靠性,从而更好地辅助人类进行决策。未来,该方法可以扩展到其他类型的LLM应用中,例如问答系统和对话生成。
📄 摘要(原文)
Large language models (LLMs) are now widely used to evaluate the quality of text, a field commonly referred to as LLM-as-a-judge. While prior works mainly focus on point-wise and pair-wise evaluation paradigms. Rubric-based evaluation, where LLMs select a score from multiple rubrics, has received less analysis. In this work, we show that rubric-based evaluation implicitly resembles a multi-choice setting and therefore has position bias: LLMs prefer score options appearing at specific positions in the rubric list. Through controlled experiments across multiple models and datasets, we demonstrate consistent position bias. To mitigate this bias, we propose a balanced permutation strategy that evenly distributes each score option across positions. We show that aggregating scores across balanced permutations not only reveals latent position bias, but also improves correlation between the LLM-as-a-Judge and human. Our results suggest that rubric-based LLM-as-a-Judge is not inherently point-wise and that simple permutation-based calibration can substantially improve its reliability.