Investigating Non-Transitivity in LLM-as-a-Judge

作者: Yi Xu, Laura Ruis, Tim Rocktäschel, Robert Kirk

分类: cs.AI, cs.CL, cs.LG

发布日期: 2025-02-19 (更新: 2025-06-05)

备注: ICML 2025 (Spotlight)

💡 一句话要点

揭示LLM评判中的非传递性问题，提出基于循环赛和动态匹配的更可靠排序方法

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 自动评估 非传递性 循环赛 Bradley-Terry模型 模型排序 指令遵循 Swim锦标赛

📋 核心要点

现有基于LLM的自动评估方法依赖传递偏好假设，但该假设的有效性缺乏验证，可能导致评估结果偏差。
论文提出使用循环赛结合Bradley-Terry模型来解决非传递性问题，从而获得更可靠的模型排序。
实验表明，该方法提高了与Chatbot Arena的排序一致性，并提出了Swim锦标赛以降低计算成本。

📝 摘要（中文）

基于大型语言模型（LLM）的自动评估方法正成为评估LLM代理指令遵循能力的标准工具。该范式中最常见的方法，即与基线模型进行成对比较，关键依赖于传递偏好的假设。然而，这一假设的有效性在很大程度上未被探索。本研究调查了AlpacaEval框架中非传递性的存在，并分析了其对模型排序的影响。我们发现LLM评判表现出非传递偏好，导致排序对基线模型的选择敏感。为了缓解这个问题，我们表明，循环赛结合Bradley-Terry偏好模型可以产生更可靠的排名。值得注意的是，我们的方法提高了与Chatbot Arena的Spearman相关性和Kendall相关性（分别为95.0% -> 96.4%和82.1% -> 86.3%）。为了解决循环赛的计算成本问题，我们提出了一种名为Swiss-Wise Iterative Matchmaking (Swim)的锦标赛，使用动态匹配策略来捕捉循环赛的优势，同时保持计算效率。

🔬 方法详解

问题定义：论文旨在解决LLM作为评判者时出现的非传递性偏好问题。现有的基于成对比较的评估方法，如AlpacaEval，假设模型之间的偏好关系是传递的（即如果A优于B，B优于C，则A一定优于C）。然而，实际情况并非如此，LLM评判可能出现A优于B，B优于C，但C优于A的情况，导致模型排序不稳定且依赖于基线模型的选择。

核心思路：论文的核心思路是通过引入循环赛机制来解决非传递性问题。循环赛确保每个模型都与其他所有模型进行比较，从而消除基线模型选择带来的偏差。同时，结合Bradley-Terry模型，可以从循环赛的结果中推导出更准确的模型偏好排序。

技术框架：整体框架包含以下几个主要步骤：1) 使用LLM作为评判者，对模型输出进行成对比较；2) 组织循环赛，确保每个模型与其他所有模型进行比较；3) 使用Bradley-Terry模型，根据循环赛的结果计算每个模型的得分；4) 根据得分对模型进行排序。为了降低循环赛的计算成本，论文还提出了Swim锦标赛，采用动态匹配策略。

关键创新：论文的关键创新在于：1) 揭示了LLM评判中存在的非传递性问题；2) 提出了使用循环赛和Bradley-Terry模型来解决该问题的方法；3) 设计了Swim锦标赛，在保证排序准确性的同时，降低了计算成本。

关键设计：Swim锦标赛的关键设计在于其动态匹配策略。该策略根据模型在比赛中的表现，动态地调整匹配对手，使得表现相近的模型能够进行更多次的比较，从而更准确地评估模型的性能。具体的匹配算法细节在论文中进行了详细描述，包括如何选择初始匹配对、如何根据比赛结果调整匹配对等。

🖼️ 关键图片

📊 实验亮点

实验结果表明，使用循环赛和Bradley-Terry模型可以显著提高模型排序的准确性，与Chatbot Arena的Spearman相关性和Kendall相关性分别提高了1.4%和4.2%。Swim锦标赛在保证排序准确性的同时，显著降低了计算成本，使其更适用于大规模模型评估。

🎯 应用场景

该研究成果可应用于各种需要自动评估LLM生成内容的场景，例如模型开发、性能测试、排行榜构建等。通过消除非传递性偏好带来的偏差，可以更公平、准确地评估LLM的性能，从而促进LLM技术的进步和应用。

📄 摘要（原文）

Automatic evaluation methods based on large language models (LLMs) are emerging as the standard tool for assessing the instruction-following abilities of LLM-based agents. The most common method in this paradigm, pairwise comparisons with a baseline model, critically depends on the assumption of transitive preferences. However, the validity of this assumption remains largely unexplored. In this study, we investigate the presence of non-transitivity within the AlpacaEval framework and analyze its effects on model rankings. We find that LLM judges exhibit non-transitive preferences, leading to rankings that are sensitive to the choice of the baseline model. To mitigate this issue, we show that round-robin tournaments combined with Bradley-Terry models of preference can produce more reliable rankings. Notably, our method increases both the Spearman correlation and the Kendall correlation with Chatbot Arena (95.0% -> 96.4% and 82.1% -> 86.3% respectively). To address the computational cost of round-robin tournaments, we propose Swiss-Wise Iterative Matchmaking (Swim) tournaments, using a dynamic matching strategy to capture the benefits of round-robin tournaments while maintaining computational efficiency.

Investigating Non-Transitivity in LLM-as-a-Judge

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理