Do LLM Evaluators Prefer Themselves for a Reason?

📄 arXiv: 2504.03846v3 📥 PDF

作者: Wei-Lin Chen, Zhepei Wei, Xinyu Zhu, Shi Feng, Yu Meng

分类: cs.CL

发布日期: 2025-04-04 (更新: 2025-12-12)

备注: Added LMArena experiments


💡 一句话要点

研究揭示LLM评估器自偏好现象,并探究其与模型质量及错误识别的关系

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 自动评估 自偏好 可验证基准 思维链

📋 核心要点

  1. 现有研究缺乏客观真值评估,难以区分LLM评估器自偏好是源于模型质量差异还是有害偏差。
  2. 论文利用可验证基准,区分LLM评估器中“合法”与“有害”的自偏好,并分析其与模型能力的关系。
  3. 实验表明,更强模型的自偏好多为“合法”,但出错时更难识别自身错误,且思维链等策略可缓解“有害”自偏好。

📝 摘要(中文)

大型语言模型(LLM)越来越多地被用作自动评估器,应用于基准测试、奖励建模和自我完善等领域。先前的工作强调了一种潜在的自偏好偏差,即LLM倾向于偏爱自己生成的响应,并且这种趋势通常随着模型规模和能力的增强而加剧。这就提出了一个关键问题:自偏好是有害的,还是仅仅反映了更强大的模型确实具有更高质量的输出?由于先前的工作主要依赖于缺乏客观真值的主观任务,因此很难回答这个问题。为了解决这种模糊性,我们使用可验证的基准(数学推理、事实知识、代码生成)来研究自偏好,这些基准允许客观的真值评估。这使我们能够区分有害的(偏爱客观上更差的响应)和合法的(偏爱真正优越的响应)自偏好。我们对7个模型家族进行的大规模实验揭示了三个关键发现:(1)虽然更强大的模型表现出更大的自偏好,但这种偏好的很大一部分与客观上更优越的性能相一致,表明更强大的模型主要合法地偏爱自己。(2)当评估器模型作为生成器出错时,有害的自偏好仍然存在,并且更强大的模型在出错时表现出更明显的有害自偏好偏差。这表明更强大的模型更难识别自己何时出错。(3)推理时缩放策略,例如在评估之前生成一个长的思维链,可以有效地减少有害的自偏好。此外,我们使用LMArena进行实验,表明我们的发现超越了可验证的基准,扩展到现实世界的主观领域。这些结果提供了对基于LLM的评估的更细致的理解,并为提高其可靠性提供了实用的见解。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)作为评估器时存在的自偏好问题。现有研究难以区分LLM偏爱自身生成结果是由于其质量确实更高,还是存在有害的偏见。缺乏客观的评估标准使得判断自偏好的性质变得困难。

核心思路:论文的核心思路是利用具有客观真值的可验证基准(如数学推理、事实知识、代码生成)来评估LLM的自偏好。通过比较LLM的偏好与客观真值,可以区分LLM的自偏好是“合法”的(偏爱质量更高的自身生成结果)还是“有害”的(偏爱质量更低的自身生成结果)。

技术框架:论文的整体框架包括以下几个主要步骤:1) 选择多个LLM家族作为生成器和评估器;2) 使用可验证基准生成测试数据;3) 让LLM生成器生成答案;4) 让LLM评估器对生成器生成的答案进行评估,并记录其偏好;5) 将LLM的偏好与客观真值进行比较,分析自偏好的性质;6) 探索推理时缩放策略(如思维链)对自偏好的影响;7) 在LMArena等主观数据集上验证结论。

关键创新:论文最重要的创新点在于提出了区分LLM评估器中“合法”与“有害”自偏好的方法。通过引入客观真值作为评估标准,论文能够更准确地分析LLM的自偏好现象,并揭示其与模型能力和错误识别能力之间的关系。

关键设计:论文的关键设计包括:1) 选择具有代表性的LLM家族,覆盖不同规模和能力的模型;2) 使用多种可验证基准,确保评估的全面性;3) 设计合理的评估指标,量化自偏好的程度和性质;4) 探索多种推理时缩放策略,寻找缓解有害自偏好的方法。此外,论文还考虑了评估器和生成器之间的关系,例如评估器是否会更偏爱与自己同属一个家族的模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,更强大的LLM表现出更大的自偏好,但这种偏好与客观性能提升相关,表明其自偏好多为“合法”。然而,当LLM出错时,更强大的模型更难识别自身错误,表现出更明显的有害自偏好。通过引入思维链等推理时缩放策略,可以有效减少有害的自偏好。

🎯 应用场景

该研究成果可应用于改进LLM自动评估流程,提高基准测试、奖励建模和自我完善等应用中评估的可靠性。通过减少有害的自偏好,可以更公平地评估不同LLM的性能,并促进LLM的健康发展。此外,该研究也为理解LLM的偏见和局限性提供了新的视角。

📄 摘要(原文)

Large language models (LLMs) are increasingly used as automatic evaluators in applications such as benchmarking, reward modeling, and self-refinement. Prior work highlights a potential self-preference bias where LLMs favor their own generated responses, a tendency often intensifying with model size and capability. This raises a critical question: Is self-preference harmful, or does it simply reflect the genuinely higher-quality outputs of stronger models? Answering this has been difficult as prior works mostly relied on subjective tasks that lack an objective ground truth, meaning that either preference can be reasonably justified. To address this ambiguity, we investigate self-preference using verifiable benchmarks (mathematical reasoning, factual knowledge, code generation) that allow objective ground-truth assessment. This enables us to distinguish harmful (favoring objectively worse responses) from legitimate (favoring genuinely superior ones) self-preference. Our large-scale experiments across 7 model families reveal three key findings: (1) While stronger models exhibit greater self-preference, much of this preference aligns with objectively superior performance, indicating stronger models prefer themselves mostly legitimately. (2) Harmful self-preference persists when evaluator models err as generators, and stronger models display more pronounced harmful self-preference bias when they do err. This suggests stronger models struggle more to recognize when they are wrong. (3) Inference-time scaling strategies, such as generating a long Chain-of-Thought before evaluation, effectively reduce the harmful self-preference. Additionally, we experiment with LMArena and show that our findings extend beyond verifiable benchmarks to real-world, subjective domains. These results provide a more nuanced understanding of LLM-based evaluation and practical insights for improving its reliability.