Investigating Non-Transitivity in LLM-as-a-Judge

📄 arXiv: 2502.14074v3 📥 PDF

作者: Yi Xu, Laura Ruis, Tim Rocktäschel, Robert Kirk

分类: cs.AI, cs.CL, cs.LG

发布日期: 2025-02-19 (更新: 2025-06-05)

备注: ICML 2025 (Spotlight)


💡 一句话要点

揭示LLM评判中的非传递性问题,提出基于循环赛和动态匹配的更可靠排序方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 自动评估 非传递性 循环赛 Bradley-Terry模型 模型排序 指令遵循 Swim锦标赛

📋 核心要点

  1. 现有基于LLM的自动评估方法依赖传递偏好假设,但该假设的有效性缺乏验证,可能导致评估结果偏差。
  2. 论文提出使用循环赛结合Bradley-Terry模型来解决非传递性问题,从而获得更可靠的模型排序。
  3. 实验表明,该方法提高了与Chatbot Arena的排序一致性,并提出了Swim锦标赛以降低计算成本。

📝 摘要(中文)

基于大型语言模型(LLM)的自动评估方法正成为评估LLM代理指令遵循能力的标准工具。该范式中最常见的方法,即与基线模型进行成对比较,关键依赖于传递偏好的假设。然而,这一假设的有效性在很大程度上未被探索。本研究调查了AlpacaEval框架中非传递性的存在,并分析了其对模型排序的影响。我们发现LLM评判表现出非传递偏好,导致排序对基线模型的选择敏感。为了缓解这个问题,我们表明,循环赛结合Bradley-Terry偏好模型可以产生更可靠的排名。值得注意的是,我们的方法提高了与Chatbot Arena的Spearman相关性和Kendall相关性(分别为95.0% -> 96.4%和82.1% -> 86.3%)。为了解决循环赛的计算成本问题,我们提出了一种名为Swiss-Wise Iterative Matchmaking (Swim)的锦标赛,使用动态匹配策略来捕捉循环赛的优势,同时保持计算效率。

🔬 方法详解

问题定义:论文旨在解决LLM作为评判者时出现的非传递性偏好问题。现有的基于成对比较的评估方法,如AlpacaEval,假设模型之间的偏好关系是传递的(即如果A优于B,B优于C,则A一定优于C)。然而,实际情况并非如此,LLM评判可能出现A优于B,B优于C,但C优于A的情况,导致模型排序不稳定且依赖于基线模型的选择。

核心思路:论文的核心思路是通过引入循环赛机制来解决非传递性问题。循环赛确保每个模型都与其他所有模型进行比较,从而消除基线模型选择带来的偏差。同时,结合Bradley-Terry模型,可以从循环赛的结果中推导出更准确的模型偏好排序。

技术框架:整体框架包含以下几个主要步骤:1) 使用LLM作为评判者,对模型输出进行成对比较;2) 组织循环赛,确保每个模型与其他所有模型进行比较;3) 使用Bradley-Terry模型,根据循环赛的结果计算每个模型的得分;4) 根据得分对模型进行排序。为了降低循环赛的计算成本,论文还提出了Swim锦标赛,采用动态匹配策略。

关键创新:论文的关键创新在于:1) 揭示了LLM评判中存在的非传递性问题;2) 提出了使用循环赛和Bradley-Terry模型来解决该问题的方法;3) 设计了Swim锦标赛,在保证排序准确性的同时,降低了计算成本。

关键设计:Swim锦标赛的关键设计在于其动态匹配策略。该策略根据模型在比赛中的表现,动态地调整匹配对手,使得表现相近的模型能够进行更多次的比较,从而更准确地评估模型的性能。具体的匹配算法细节在论文中进行了详细描述,包括如何选择初始匹配对、如何根据比赛结果调整匹配对等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用循环赛和Bradley-Terry模型可以显著提高模型排序的准确性,与Chatbot Arena的Spearman相关性和Kendall相关性分别提高了1.4%和4.2%。Swim锦标赛在保证排序准确性的同时,显著降低了计算成本,使其更适用于大规模模型评估。

🎯 应用场景

该研究成果可应用于各种需要自动评估LLM生成内容的场景,例如模型开发、性能测试、排行榜构建等。通过消除非传递性偏好带来的偏差,可以更公平、准确地评估LLM的性能,从而促进LLM技术的进步和应用。

📄 摘要(原文)

Automatic evaluation methods based on large language models (LLMs) are emerging as the standard tool for assessing the instruction-following abilities of LLM-based agents. The most common method in this paradigm, pairwise comparisons with a baseline model, critically depends on the assumption of transitive preferences. However, the validity of this assumption remains largely unexplored. In this study, we investigate the presence of non-transitivity within the AlpacaEval framework and analyze its effects on model rankings. We find that LLM judges exhibit non-transitive preferences, leading to rankings that are sensitive to the choice of the baseline model. To mitigate this issue, we show that round-robin tournaments combined with Bradley-Terry models of preference can produce more reliable rankings. Notably, our method increases both the Spearman correlation and the Kendall correlation with Chatbot Arena (95.0% -> 96.4% and 82.1% -> 86.3% respectively). To address the computational cost of round-robin tournaments, we propose Swiss-Wise Iterative Matchmaking (Swim) tournaments, using a dynamic matching strategy to capture the benefits of round-robin tournaments while maintaining computational efficiency.