RocketEval: Efficient Automated LLM Evaluation via Grading Checklist

📄 arXiv: 2503.05142v1 📥 PDF

作者: Tianjun Wei, Wei Wen, Ruizhi Qiao, Xing Sun, Jianghong Ma

分类: cs.CL

发布日期: 2025-03-07

备注: Accepted by ICLR 2025: https://openreview.net/forum?id=zJjzNj6QUe

🔗 代码/项目: GITHUB


💡 一句话要点

RocketEval:通过检查清单分级实现高效的自动化LLM评估

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM评估 自动化评估 轻量级LLM 检查清单 成本效益

📋 核心要点

  1. 现有LLM评估方法依赖人工或大型LLM,成本高昂且存在隐私安全和可重复性问题。
  2. RocketEval将评估任务转化为基于检查清单的多方面问答,利用轻量级LLM进行分级。
  3. 实验表明,RocketEval使用Gemma-2-2B作为评判者,与人类偏好相关性高达0.965,成本降低超过50倍。

📝 摘要(中文)

为了使大型语言模型(LLMs)与人类偏好对齐,在多样化和具有挑战性的场景中评估它们至关重要。为了减轻人工评估带来的高昂成本,利用强大的LLM作为评判者已成为一种受欢迎的方法。然而,这种方法面临着诸多挑战,包括高昂的成本、对隐私和安全的担忧以及可重复性问题。本文提出了一种简单、可复制且准确的自动化评估方法,即RocketEval,它利用轻量级LLM作为评判者。我们发现,轻量级LLM和强大LLM在评估任务中的性能差异主要源于它们进行全面分析的能力,而这种能力不容易通过思维链等技术来提高。通过使用特定实例的检查清单将评估任务重新定义为多方面的问答,我们证明了轻量级LLM有限的判断准确性主要归因于高不确定性和位置偏差。为了应对这些挑战,我们提出了一种基于检查清单分级的自动化评估流程,该流程旨在适应各种场景和问题。该流程包括创建检查清单、由轻量级LLM对这些检查清单进行分级以及重新加权检查清单项目以与监督注释对齐。我们在自动化评估基准MT-Bench和WildBench数据集上进行的实验表明,当使用Gemma-2-2B作为评判者时,RocketEval与人类偏好实现了高度相关性(0.965),这与GPT-4o相当。此外,RocketEval为大规模评估和比较场景提供了超过50倍的成本降低。

🔬 方法详解

问题定义:论文旨在解决大规模评估LLM时,人工评估成本高昂,以及使用大型LLM评估时存在的成本、隐私和可重复性问题。现有方法难以在成本可控的前提下,保证评估的准确性和可靠性。

核心思路:论文的核心思路是将复杂的LLM评估任务分解为一系列更小、更具体的子任务,并通过检查清单的形式进行组织。这样可以降低对评判LLM的推理能力要求,使得轻量级LLM也能胜任评估任务,从而降低成本。同时,通过对检查清单条目进行加权,可以进一步提高评估的准确性。

技术框架:RocketEval的整体流程包括三个主要阶段:1) 检查清单创建:针对特定的评估场景和问题,人工或自动生成一份详细的检查清单,列出需要评估的关键方面。2) 检查清单分级:使用轻量级LLM作为评判者,根据LLM的回答,对检查清单上的每个条目进行评分。3) 结果加权与整合:根据监督数据,对检查清单上的每个条目进行加权,然后将加权后的评分进行整合,得到最终的评估结果。

关键创新:RocketEval的关键创新在于将LLM评估任务转化为基于检查清单的多方面问答形式。这种方法显著降低了对评判LLM的推理能力要求,使得轻量级LLM也能有效地进行评估。此外,通过对检查清单条目进行加权,可以进一步提高评估的准确性,使其与人类偏好更加一致。

关键设计:检查清单的设计需要根据具体的评估场景和问题进行调整,确保覆盖所有需要评估的关键方面。检查清单条目的加权可以通过监督学习的方法进行优化,例如使用人类标注的数据来训练一个模型,预测每个条目的权重。论文中使用了Gemma-2-2B作为轻量级LLM评判者,并采用了特定的提示工程技术来提高其评估的准确性。

🖼️ 关键图片

img_0

📊 实验亮点

RocketEval使用Gemma-2-2B作为评判者,在MT-Bench和WildBench数据集上实现了与GPT-4o相当的性能,与人类偏好的相关性高达0.965。同时,RocketEval的评估成本降低了超过50倍,为大规模LLM评估提供了经济高效的解决方案。

🎯 应用场景

RocketEval可应用于大规模LLM的自动化评估和比较,例如在模型开发过程中进行快速迭代和性能优化,或在模型部署前进行质量控制。该方法降低了评估成本,使得更多研究者和开发者能够负担得起高质量的LLM评估,从而推动LLM技术的进步。

📄 摘要(原文)

Evaluating large language models (LLMs) in diverse and challenging scenarios is essential to align them with human preferences. To mitigate the prohibitive costs associated with human evaluations, utilizing a powerful LLM as a judge has emerged as a favored approach. Nevertheless, this methodology encounters several challenges, including substantial expenses, concerns regarding privacy and security, and reproducibility. In this paper, we propose a straightforward, replicable, and accurate automated evaluation method by leveraging a lightweight LLM as the judge, named RocketEval. Initially, we identify that the performance disparity between lightweight and powerful LLMs in evaluation tasks primarily stems from their ability to conduct comprehensive analyses, which is not easily enhanced through techniques such as chain-of-thought reasoning. By reframing the evaluation task as a multi-faceted Q&A using an instance-specific checklist, we demonstrate that the limited judgment accuracy of lightweight LLMs is largely attributes to high uncertainty and positional bias. To address these challenges, we introduce an automated evaluation process grounded in checklist grading, which is designed to accommodate a variety of scenarios and questions. This process encompasses the creation of checklists, the grading of these checklists by lightweight LLMs, and the reweighting of checklist items to align with the supervised annotations. Our experiments carried out on the automated evaluation benchmarks, MT-Bench and WildBench datasets, reveal that RocketEval, when using Gemma-2-2B as the judge, achieves a high correlation (0.965) with human preferences, which is comparable to GPT-4o. Moreover, RocketEval provides a cost reduction exceeding 50-fold for large-scale evaluation and comparison scenarios. Our code is available at https://github.com/Joinn99/RocketEval-ICLR .