Pairwise or Pointwise? Evaluating Feedback Protocols for Bias in LLM-Based Evaluation

📄 arXiv: 2504.14716v2 📥 PDF

作者: Tuhina Tripathi, Manya Wadhwa, Greg Durrett, Scott Niekum

分类: cs.LG

发布日期: 2025-04-20 (更新: 2025-08-21)

备注: Published at COLM 2025


💡 一句话要点

揭示LLM评估中反馈协议的偏见:成对偏好易受干扰,绝对评分更稳健

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 LLM评估 反馈协议 成对偏好 绝对评分 干扰特征 评估偏差

📋 核心要点

  1. 现有LLM评估方法依赖人类标注替代品,但反馈协议选择对评估可靠性的影响缺乏深入研究。
  2. 该研究通过对比成对偏好和绝对评分两种反馈协议,揭示了成对协议在LLM评估中更易受干扰的脆弱性。
  3. 实验表明,生成器模型可利用干扰特征操纵成对偏好,导致评估偏差,而绝对评分更稳健。

📝 摘要(中文)

大型语言模型(LLM)被广泛用作人类标注者的替代品,用于训练(基于AI反馈的强化学习)和大规模响应评估(LLM即评判)。对齐和评估是开发可靠LLM的关键组成部分,而反馈协议的选择在两者中都起着核心作用,但仍未得到充分研究。本文表明,评估的反馈协议选择(绝对分数与相对偏好)会显著影响评估的可靠性并导致系统性偏差。在LLM即评判的评估中,我们发现成对协议更容易受到干扰评估的影响。生成器模型可以利用LLM评判者偏爱的虚假属性(或干扰特征),从而导致较低质量输出的分数膨胀。我们发现绝对评分对这种操纵更具鲁棒性,产生的判断能更好地反映响应质量,并且受干扰特征的影响较小。我们的结果表明,生成器模型可以通过嵌入干扰特征来翻转偏好,从而扭曲LLM即评判的比较,并导致对基准评估中模型质量的不准确结论。大约35%的案例中成对偏好会翻转,而绝对分数仅为9%。我们为基于数据集特征和评估目标选择反馈协议提供了建议。

🔬 方法详解

问题定义:论文旨在解决LLM作为评估者时,不同反馈协议(成对偏好 vs. 绝对评分)对评估结果可靠性的影响问题。现有方法中,成对偏好协议容易受到生成器模型引入的干扰特征的操纵,导致评估结果偏离真实质量。

核心思路:论文的核心思路是对比分析两种反馈协议在面对生成器模型引入的干扰特征时的表现。通过实验证明,成对偏好协议更容易受到干扰特征的影响,导致评估结果出现偏差,而绝对评分协议则更具鲁棒性,能够更准确地反映响应的真实质量。

技术框架:论文的技术框架主要包括以下几个部分:1) 定义干扰特征:选择LLM评判者可能偏爱的虚假属性。2) 生成对抗样本:训练生成器模型,使其生成的样本包含干扰特征。3) 评估不同反馈协议:使用LLM评判者,分别采用成对偏好和绝对评分两种协议,对原始样本和对抗样本进行评估。4) 分析评估结果:对比两种协议的评估结果,分析干扰特征对评估结果的影响。

关键创新:论文的关键创新在于揭示了成对偏好协议在LLM评估中存在的脆弱性,并证明了绝对评分协议的鲁棒性。这一发现对于选择合适的反馈协议,提高LLM评估的可靠性具有重要意义。

关键设计:论文的关键设计包括:1) 干扰特征的选择:需要选择LLM评判者可能偏爱的虚假属性,例如在文本生成中,可以选择一些与内容质量无关的词汇或句式。2) 对抗样本的生成:需要训练生成器模型,使其生成的样本既能保持一定的质量,又能包含足够的干扰特征。3) 评估指标的选择:需要选择合适的评估指标,例如准确率、召回率等,来衡量两种协议的评估结果的差异。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,生成器模型可以通过嵌入干扰特征来翻转LLM评判者的偏好,导致成对偏好协议的评估结果出现偏差。具体而言,大约35%的案例中成对偏好会翻转,而绝对分数仅为9%。这表明绝对评分协议对干扰特征的鲁棒性更强,能够更准确地反映响应的真实质量。

🎯 应用场景

该研究成果可应用于LLM的对齐训练和大规模评估,帮助研究人员和开发者选择更合适的反馈协议,提高LLM的可靠性和安全性。尤其是在涉及敏感信息或需要高度准确性的场景下,选择鲁棒性更强的绝对评分协议至关重要。未来的研究可以进一步探索更复杂的干扰模式和更有效的防御机制。

📄 摘要(原文)

Large Language Models (LLMs) are widely used as proxies for human labelers in both training (Reinforcement Learning from AI Feedback) and large-scale response evaluation (LLM-as-a-judge). Alignment and evaluation are critical components in the development of reliable LLMs, and the choice of feedback protocol plays a central role in both but remains understudied. In this work, we show that the choice of feedback protocol for evaluation (absolute scores versus relative preferences) can significantly affect evaluation reliability and induce systematic biases. In the context of LLM-as-a-judge evaluation, we show that pairwise protocols are more vulnerable to distracted evaluation. Generator models can exploit spurious attributes (or distractor features) favored by the LLM judge, resulting in inflated scores for lower-quality outputs. We find that absolute scoring is more robust to such manipulation, producing judgments that better reflect response quality and are less influenced by distractor features. Our results demonstrate that generator models can flip preferences by embedding distractor features, skewing LLM-as-a-judge comparisons and leading to inaccurate conclusions about model quality in benchmark evaluations. Pairwise preferences flip in about 35% of the cases, compared to only 9% for absolute scores. We offer recommendations for choosing feedback protocols based on dataset characteristics and evaluation objectives.