Evaluating Judges as Evaluators: The JETTS Benchmark of LLM-as-Judges as Test-Time Scaling Evaluators

📄 arXiv: 2504.15253v2 📥 PDF

作者: Yilun Zhou, Austin Xu, Peifeng Wang, Caiming Xiong, Shafiq Joty

分类: cs.CL, cs.LG

发布日期: 2025-04-21 (更新: 2025-05-21)

备注: ICML 2025. The first two authors contributed equally. The codebase is at https://github.com/SalesforceAIResearch/jetts-benchmark


💡 一句话要点

JETTS基准:评估LLM-Judge在测试时计算扩展中的有效性,揭示其在不同任务中的优劣势。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM-Judge 测试时计算扩展 基准测试 大语言模型 自动评估

📋 核心要点

  1. 现有测试时计算扩展方法依赖外部奖励模型,但LLM-Judge在此场景下的有效性未知,存在评估空白。
  2. JETTS基准通过多领域、多任务设置,系统评估LLM-Judge在测试时计算扩展中的性能表现。
  3. 实验表明,LLM-Judge在重排序任务中表现尚可,但在束搜索和评论引导生成方面存在局限性。

📝 摘要(中文)

本文提出了Judge Evaluation for Test-Time Scaling (JETTS) 基准,用于评估LLM-Judge在测试时计算扩展场景下的性能。测试时计算扩展是指在推理阶段为生成式大语言模型(LLM)提供额外的计算资源,通常需要借助外部非生成式的评估器(如奖励模型)。尽管LLM-Judge在自动评估中取得了成功,但它们在测试时计算扩展环境下的有效性尚不清楚。JETTS基准在数学推理、代码生成和指令跟随三个领域,以及响应重排序、步级束搜索和基于评论的响应改进三个任务设置下,评估了10个不同的Judge模型(7B-70B参数)和8个不同的生成器模型(6.7B-72B参数)。结果表明,Judge模型在重排序任务中与结果奖励模型具有竞争力,但在束搜索过程中始终不如过程奖励模型。此外,LLM-Judge独特的自然语言评论在指导生成器产生更好的响应方面目前效果不佳。

🔬 方法详解

问题定义:论文旨在评估LLM-Judge作为评估器,在测试时计算扩展场景下的性能。现有方法主要依赖外部的非生成式奖励模型进行评估,缺乏对LLM-Judge在此场景下能力的系统性研究,尤其是在束搜索和基于评论的响应改进等任务中,LLM-Judge的有效性尚不明确。这限制了LLM-Judge在实际应用中的潜力,也阻碍了测试时计算扩展技术的发展。

核心思路:论文的核心思路是构建一个全面的基准测试集JETTS,通过在不同领域和任务设置下,系统地评估LLM-Judge的性能。通过对比LLM-Judge与传统奖励模型在不同任务中的表现,揭示LLM-Judge的优势和局限性,从而为LLM-Judge在测试时计算扩展中的应用提供指导。此外,论文还探索了LLM-Judge生成的自然语言评论在指导生成器改进响应方面的潜力。

技术框架:JETTS基准主要包含三个领域(数学推理、代码生成和指令跟随)和三个任务设置(响应重排序、步级束搜索和基于评论的响应改进)。对于每个领域和任务设置,论文都设计了相应的评估指标和测试用例。论文选取了10个不同的Judge模型(7B-70B参数)和8个不同的生成器模型(6.7B-72B参数)进行评估。在响应重排序任务中,Judge模型对多个候选响应进行排序;在步级束搜索任务中,Judge模型在每一步选择最佳的候选token;在基于评论的响应改进任务中,Judge模型生成自然语言评论,指导生成器改进响应。

关键创新:论文的主要创新在于提出了JETTS基准,这是首个专门用于评估LLM-Judge在测试时计算扩展场景下性能的基准。JETTS基准覆盖了多个领域和任务设置,能够全面评估LLM-Judge的性能。此外,论文还探索了LLM-Judge生成的自然语言评论在指导生成器改进响应方面的潜力,这是传统奖励模型所不具备的。

关键设计:在JETTS基准中,论文针对不同的任务设置设计了不同的评估指标。例如,在响应重排序任务中,论文使用了排序相关性指标(如NDCG)来评估Judge模型的排序能力;在步级束搜索任务中,论文使用了最终响应的质量指标(如准确率)来评估Judge模型的选择能力;在基于评论的响应改进任务中,论文使用了改进后的响应质量指标来评估Judge模型的评论效果。此外,论文还对Judge模型的参数规模和训练数据进行了控制,以保证评估结果的可靠性。

📊 实验亮点

实验结果表明,LLM-Judge在响应重排序任务中与结果奖励模型具有竞争力,但在步级束搜索任务中始终不如过程奖励模型。更重要的是,LLM-Judge生成的自然语言评论在指导生成器产生更好的响应方面目前效果不佳,这表明LLM-Judge在理解和利用自然语言反馈方面仍有很大的提升空间。这些发现为未来研究提供了重要的方向。

🎯 应用场景

该研究成果可应用于提升大语言模型在各种任务中的性能,尤其是在计算资源受限的场景下。通过选择合适的LLM-Judge或优化其使用方式,可以更有效地利用测试时计算扩展技术,提高模型生成结果的质量和效率。此外,该研究也为LLM-Judge的未来发展方向提供了指导,例如如何提高其在束搜索和评论引导生成方面的能力。

📄 摘要(原文)

Scaling test-time computation, or affording a generator large language model (LLM) extra compute during inference, typically employs the help of external non-generative evaluators (i.e., reward models). Concurrently, LLM-judges, models trained to generate evaluations and critiques (explanations) in natural language, are becoming increasingly popular in automatic evaluation. Despite judge empirical successes, their effectiveness as evaluators in test-time scaling settings is largely unknown. In this paper, we introduce the Judge Evaluation for Test-Time Scaling (JETTS) benchmark, which evaluates judge performance in three domains (math reasoning, code generation, and instruction following) under three task settings: response reranking, step-level beam search, and critique-based response refinement. We evaluate 10 different judge models (7B-70B parameters) for 8 different base generator models (6.7B-72B parameters). Our benchmark shows that while judges are competitive with outcome reward models in reranking, they are consistently worse than process reward models in beam search procedures. Furthermore, though unique to LLM-judges, their natural language critiques are currently ineffective in guiding the generator towards better responses.