Who can we trust? LLM-as-a-jury for Comparative Assessment

📄 arXiv: 2602.16610v1 📥 PDF

作者: Mengjie Qian, Guangzhi Sun, Mark J. F. Gales, Kate M. Knill

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-02-18


💡 一句话要点

提出BT-sigma模型,通过LLM陪审团进行无监督校准的NLG评估

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自然语言生成评估 大型语言模型 成对比较 Bradley-Terry模型 无监督学习 评估者校准 LLM陪审团

📋 核心要点

  1. 现有NLG评估方法依赖单一或平均LLM评估者,忽略了LLM在不同任务和判断上的可靠性差异。
  2. BT-sigma模型通过引入评估者判别器参数,从成对比较中联合推断项目排名和评估者可靠性。
  3. 实验表明BT-sigma优于平均聚合方法,学习到的判别器与LLM判断一致性高度相关,可作为无监督校准。

📝 摘要(中文)

大型语言模型(LLMs)越来越多地被用作自然语言生成(NLG)评估的自动评估器,通常采用成对比较判断。现有方法通常依赖于单个评估者或聚合多个评估者,并假设他们具有相同的可靠性。实际上,LLM评估者在不同任务和方面上的表现差异很大,并且他们的判断概率可能存在偏差和不一致。此外,可能无法获得用于评估者校准的人工标注监督。本文首先通过实验证明了LLM比较概率中存在不一致性,并表明这限制了直接基于概率的排序的有效性。为了解决这个问题,本文研究了LLM作为陪审团的设置,并提出了BT-sigma,它是Bradley-Terry模型的评估者感知扩展,为每个评估者引入了一个判别器参数,以仅从成对比较中联合推断项目排名和评估者可靠性。在基准NLG评估数据集上的实验表明,BT-sigma始终优于基于平均的聚合方法,并且学习到的判别器与LLM判断的循环一致性的独立度量密切相关。进一步的分析表明,BT-sigma可以被解释为一种无监督校准机制,通过对评估者可靠性进行建模来改进聚合。

🔬 方法详解

问题定义:论文旨在解决自然语言生成(NLG)评估中,使用大型语言模型(LLM)作为自动评估器时,由于LLM评估者之间可靠性差异导致的评估偏差问题。现有方法通常假设所有LLM评估者具有相同的可靠性,或者简单地平均他们的判断,这忽略了LLM在不同任务和方面上的表现差异,导致评估结果不准确。此外,获取人工标注数据来校准LLM评估者通常是不可行的。

核心思路:论文的核心思路是将LLM评估者视为一个“陪审团”,每个陪审员(LLM)的可靠性不同。通过引入一个评估者感知的判别器参数,BT-sigma模型能够从成对比较数据中同时学习项目排名和评估者的可靠性。这种方法无需人工标注数据,实现了无监督的评估者校准。

技术框架:BT-sigma模型是基于Bradley-Terry(BT)模型的扩展。BT模型用于从成对比较数据中推断项目排名。BT-sigma在BT模型的基础上,为每个LLM评估者引入了一个判别器参数(sigma),用于表示该评估者的可靠性。模型的整体流程如下:1)收集LLM评估者对NLG输出的成对比较判断;2)使用BT-sigma模型,联合估计项目排名和评估者判别器;3)使用学习到的项目排名来评估NLG模型的性能。

关键创新:BT-sigma的关键创新在于引入了评估者判别器参数,使得模型能够自动学习每个LLM评估者的可靠性,从而实现无监督的评估者校准。与现有方法相比,BT-sigma不需要人工标注数据,并且能够更好地处理LLM评估者之间的可靠性差异。

关键设计:BT-sigma模型的关键设计包括:1)使用sigmoid函数将评估者判别器参数映射到0到1之间的可靠性值;2)使用最大似然估计来联合估计项目排名和评估者判别器;3)使用梯度下降等优化算法来求解最大似然估计问题。损失函数基于Bradley-Terry模型的似然函数,并加入了评估者判别器参数的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,BT-sigma模型在基准NLG评估数据集上始终优于基于平均的聚合方法。具体而言,BT-sigma在多个数据集上取得了显著的性能提升,并且学习到的评估者判别器与LLM判断的循环一致性的独立度量密切相关。这表明BT-sigma能够有效地识别和校准不可靠的LLM评估者,从而提高评估的准确性。

🎯 应用场景

该研究成果可应用于各种自然语言生成任务的自动评估,例如机器翻译、文本摘要、对话生成等。通过更准确地评估NLG模型的性能,可以促进NLG技术的发展,并提高生成文本的质量。此外,该方法还可以用于评估其他类型的自动评估器,例如图像质量评估器。

📄 摘要(原文)

Large language models (LLMs) are increasingly applied as automatic evaluators for natural language generation assessment often using pairwise comparative judgements. Existing approaches typically rely on single judges or aggregate multiple judges assuming equal reliability. In practice, LLM judges vary substantially in performance across tasks and aspects, and their judgment probabilities may be biased and inconsistent. Furthermore, human-labelled supervision for judge calibration may be unavailable. We first empirically demonstrate that inconsistencies in LLM comparison probabilities exist and show that it limits the effectiveness of direct probability-based ranking. To address this, we study the LLM-as-a-jury setting and propose BT-sigma, a judge-aware extension of the Bradley-Terry model that introduces a discriminator parameter for each judge to jointly infer item rankings and judge reliability from pairwise comparisons alone. Experiments on benchmark NLG evaluation datasets show that BT-sigma consistently outperforms averaging-based aggregation methods, and that the learned discriminator strongly correlates with independent measures of the cycle consistency of LLM judgments. Further analysis reveals that BT-sigma can be interpreted as an unsupervised calibration mechanism that improves aggregation by modelling judge reliability.