Nine Judges, Two Effective Votes: Correlated Errors Undermine LLM Evaluation Panels

📄 arXiv: 2605.29800v1 📥 PDF

作者: Guneet Kohli

分类: cs.CL

发布日期: 2026-05-28

备注: 14 pages, 5 figures, 12 tables


💡 一句话要点

LLM评判团存在误差相关性,导致有效投票数远低于预期

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM评估 误差相关性 有效样本量 独立投票 自然语言推理

📋 核心要点

  1. 现有方法依赖LLM评判团进行评估,期望多样性模型提高可靠性,但未充分考虑模型间的误差相关性。
  2. 本文提出一种框架,用于衡量LLM评判团的真实信息价值,并量化其可靠性与独立投票理想情况的差距。
  3. 实验表明,由于模型误差相关性,9个LLM评委的有效信息量仅相当于2个独立投票,准确率下降8-22%。

📝 摘要(中文)

本文研究了使用大型语言模型(LLM)作为评判团来评估其他LLM的可靠性问题。研究发现,尽管评判团由多个模型组成,但由于模型之间存在误差相关性,其有效信息价值远低于独立投票的理想情况。在三个自然语言推理数据集上,使用来自7个模型系列的9个前沿LLM进行测试,结果表明9个评委的有效信息量仅相当于大约2个独立投票。大约四分之三的名义独立性损失是由于模型在相同项目上犯了相同的错误。这导致评判团的实际准确率比独立投票所能达到的准确率低8-22个百分点,并且最佳的单个评委在所有条件下都与整个评判团的表现相当甚至更好。即使使用更智能的聚合算法,也只能弥补最多11%的差距。研究使用Kish有效样本量(n_eff)和Condorcet零模型量化了这些发现,并表明这种缺陷在不同的提示变体、温度、思维链推理和成对偏好任务(RewardBench)中都具有鲁棒性。瓶颈在于相关的评委,而不是聚合算法,这意味着扩大评判团的规模不能替代真正独立的评估。

🔬 方法详解

问题定义:论文旨在解决LLM评判团评估中,由于模型间误差相关性导致评估结果失真的问题。现有方法假设LLM评判团中的模型是独立的,但实际情况并非如此,这导致评估结果的可靠性降低,无法准确反映被评估模型的真实性能。

核心思路:论文的核心思路是通过量化LLM评判团的有效信息量,来评估误差相关性对评估结果的影响。通过计算Kish有效样本量(n_eff)和使用Condorcet零模型,可以衡量评判团的实际独立性,并与理想的独立投票情况进行比较。这种方法能够揭示评判团中模型之间的冗余信息,从而更好地理解评估结果的局限性。

技术框架:论文的技术框架主要包括以下几个步骤:1) 构建LLM评判团,选择多个不同的LLM作为评委;2) 在多个数据集上进行评估,每个数据集包含多个样本,并由人工进行标注;3) 使用LLM评判团对每个样本进行评估,记录每个评委的投票结果;4) 使用Kish有效样本量(n_eff)和Condorcet零模型量化评判团的有效信息量;5) 分析误差相关性对评估结果的影响,并与独立投票的理想情况进行比较。

关键创新:论文的关键创新在于提出了一个量化LLM评判团有效信息量的框架,能够有效地衡量误差相关性对评估结果的影响。与现有方法相比,该框架能够更准确地评估LLM评判团的可靠性,并揭示其局限性。此外,论文还发现,即使使用更智能的聚合算法,也无法有效地弥补误差相关性带来的影响。

关键设计:论文的关键设计包括:1) 使用Kish有效样本量(n_eff)来衡量评判团的有效信息量,n_eff越小,说明误差相关性越大;2) 使用Condorcet零模型来模拟独立投票的理想情况,并与实际的评判团结果进行比较;3) 在多个数据集上进行评估,以验证结果的鲁棒性;4) 尝试不同的提示变体、温度、思维链推理和成对偏好任务(RewardBench),以进一步验证结果的普遍性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,由9个LLM组成的评判团的有效信息量仅相当于大约2个独立投票,实际准确率比独立投票所能达到的准确率低8-22个百分点。最佳的单个评委在所有条件下都与整个评判团的表现相当甚至更好。即使使用更智能的聚合算法,也只能弥补最多11%的差距。这些结果表明,扩大评判团的规模不能替代真正独立的评估。

🎯 应用场景

该研究成果可应用于LLM的评估和选择,帮助研究人员和开发者更准确地评估LLM的性能,并选择更合适的模型。此外,该研究也对LLM评判团的设计和优化具有指导意义,有助于构建更可靠的评估体系,避免因误差相关性导致的评估偏差。未来,可以探索如何降低LLM评判团的误差相关性,提高评估的准确性和效率。

📄 摘要(原文)

LLM-as-a-judge panels aggregate votes from multiple models, with the expectation that diverse models yield more reliable evaluations. We develop a framework to measure the true informational value of such panels and quantify how far their reliability falls short of the independent-voting ideal. Testing a panel of 9 frontier LLMs from 7 model families on three natural language inference datasets (each with 100 human annotations per item), we find that the 9 judges effectively provide only about 2 independent votes' worth of information. Roughly three-quarters of the panel's nominal independence is lost because the models make the same mistakes on the same items. The consequences are stark: the panel's actual accuracy falls 8-22 percentage points short of what independent voting would achieve, and the best single judge matches or outperforms the full panel across all conditions. Neither adding more judges nor using smarter aggregation algorithms helps -- established methods close at most 11% of this gap, even with access to the correct answers. We quantify these findings using the Kish effective sample size (n_eff) and a Condorcet null model, and show the deficit is robust across prompt variants, temperatures, chain-of-thought reasoning, and a pairwise preference task (RewardBench). The bottleneck is correlated judges, not the aggregation algorithm, implying that scaling up panels cannot substitute for genuinely independent evaluation.