Does Context Matter? ContextualJudgeBench for Evaluating LLM-based Judges in Contextual Settings

📄 arXiv: 2503.15620v1 📥 PDF

作者: Austin Xu, Srijan Bansal, Yifei Ming, Semih Yavuz, Shafiq Joty

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-03-19

备注: 23 pages, 13 figures, 6 tables


💡 一句话要点

提出ContextualJudgeBench,用于评估LLM在上下文场景下的评判能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM评判 上下文评估 RAG 基准数据集 语言模型 AI评估 模型评估 ContextualJudgeBench

📋 核心要点

  1. 现有LLM评判模型主要在非上下文场景下评估,忽略了RAG等实际应用中对上下文理解的需求。
  2. 论文提出ContextualJudgeBench基准,包含2000个响应对,覆盖多种真实上下文评估场景。
  3. 实验表明,即使是OpenAI的o1模型在ContextualJudgeBench上的一致性准确率也仅为55%,表明上下文评估的挑战性。

📝 摘要(中文)

大型语言模型(LLM)作为评判者的范式已被广泛应用于AI系统开发和部署后监控中,以满足对廉价、可靠和快速的模型输出评估的需求。尽管评判模型(经过微调以专门评估和评论模型输出的LLM)被吹捧为通用评估器,但它们通常仅在非上下文场景(如指令遵循)中进行评估。考虑到检索增强生成(RAG)和摘要用例的日益普及,忽略上下文设置(即使用外部信息作为上下文来生成输出的场景)令人惊讶。上下文评估具有独特的挑战性,因为评估通常取决于从业者的优先级,从而导致有条件的评估标准(例如,基于事实性比较响应,如果它们同样具有事实性,则考虑完整性)。为了解决这一差距,我们提出了ContextualJudgeBench,这是一个评判基准,包含2000个具有挑战性的响应对,分布在受真实世界上下文评估场景启发的八个拆分中。我们使用多管齐下的数据构建流程构建我们的基准,该流程利用现有的人工注释和基于模型的扰动。我们对11个评判模型和9个通用模型进行的全面研究表明,上下文信息及其评估标准对即使是最先进的模型也提出了重大挑战。例如,性能最佳的OpenAI的o1模型仅达到55%的一致性准确率。

🔬 方法详解

问题定义:论文旨在解决现有LLM评判模型在上下文场景下评估能力不足的问题。现有方法主要关注非上下文场景,无法有效评估模型在RAG等需要利用外部知识生成内容的任务中的表现。这导致了对LLM评判能力评估的不全面,以及在实际应用中可能出现的问题。

核心思路:论文的核心思路是构建一个专门用于评估LLM在上下文场景下评判能力的基准数据集ContextualJudgeBench。该基准包含多种真实世界的上下文评估场景,并考虑了评估标准的多样性和条件性,从而更全面地评估LLM的评判能力。

技术框架:ContextualJudgeBench的构建流程包括以下几个主要阶段:1) 场景选择:选择受真实世界上下文评估场景启发的八个拆分。2) 数据收集:利用现有的人工注释和基于模型的扰动来生成具有挑战性的响应对。3) 质量控制:对生成的数据进行人工审核,确保数据的质量和多样性。

关键创新:论文的关键创新在于构建了一个专门针对上下文场景的评判基准ContextualJudgeBench。该基准不仅包含了多种上下文场景,还考虑了评估标准的多样性和条件性,从而更全面地评估LLM的评判能力。此外,论文还提出了一种多管齐下的数据构建流程,可以有效地生成具有挑战性的响应对。

关键设计:ContextualJudgeBench包含2000个响应对,分布在八个拆分中。每个拆分都代表一个特定的上下文评估场景,例如事实性、完整性、相关性等。评估标准是条件性的,例如,首先比较响应的事实性,如果它们同样具有事实性,则考虑完整性。论文没有具体说明损失函数或网络结构,因为重点在于基准数据集的构建和评估。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,即使是OpenAI的o1模型在ContextualJudgeBench上的一致性准确率也仅为55%,远低于其在非上下文场景下的表现。这表明上下文信息及其评估标准对LLM评判模型提出了重大挑战。该研究强调了在上下文场景下评估LLM评判能力的重要性,并为未来的研究提供了新的方向。

🎯 应用场景

该研究成果可应用于RAG系统、摘要生成系统等需要利用外部知识的AI系统的评估和改进。通过ContextualJudgeBench,开发者可以更全面地了解LLM在上下文场景下的评判能力,从而选择更合适的评判模型,并优化系统的性能。此外,该基准还可以促进LLM评判技术的发展,推动AI系统的可靠性和安全性。

📄 摘要(原文)

The large language model (LLM)-as-judge paradigm has been used to meet the demand for a cheap, reliable, and fast evaluation of model outputs during AI system development and post-deployment monitoring. While judge models -- LLMs finetuned to specialize in assessing and critiquing model outputs -- have been touted as general purpose evaluators, they are typically evaluated only on non-contextual scenarios, such as instruction following. The omission of contextual settings -- those where external information is used as context to generate an output -- is surprising given the increasing prevalence of retrieval-augmented generation (RAG) and summarization use cases. Contextual assessment is uniquely challenging, as evaluation often depends on practitioner priorities, leading to conditional evaluation criteria (e.g., comparing responses based on factuality and then considering completeness if they are equally factual). To address the gap, we propose ContextualJudgeBench, a judge benchmark with 2,000 challenging response pairs across eight splits inspired by real-world contextual evaluation scenarios. We build our benchmark with a multi-pronged data construction pipeline that leverages both existing human annotations and model-based perturbations. Our comprehensive study across 11 judge models and 9 general purpose models, reveals that the contextual information and its assessment criteria present a significant challenge to even state-of-the-art models. For example, OpenAI's o1, the best-performing model, barely reaches 55% consistent accuracy.