SedarEval: Automated Evaluation using Self-Adaptive Rubrics
作者: Zhiyuan Fan, Weinong Wang, Xing Wu, Debing Zhang
分类: cs.CV
发布日期: 2025-01-26
期刊: EMNLP2024
🔗 代码/项目: GITHUB
💡 一句话要点
SedarEval:提出基于自适应评分细则的自动化评测方法,提升LLM评测的精度和稳定性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM评测 自适应评分细则 自动化评估 评估语言模型 SedarEval基准
📋 核心要点
- 现有LLM评测方法依赖通用评分标准,忽略了问题的特异性,导致评测精度和稳定性不足。
- 论文提出基于自适应评分细则的评测范式,为每个问题构建详细的评分标准,模拟人类评估过程。
- SedarEval基准和评估语言模型的实验结果表明,该方法比现有方法(包括GPT-4)与人类评分结果的符合率更高。
📝 摘要(中文)
本文提出了一种基于自适应评分细则的全新LLM评测范式,旨在解决现有方法依赖通用评分标准而忽略问题特异性和解题过程的问题,从而提高评测的精度和稳定性。该方法为每个问题创建详细的评分细则,捕捉主要和次要标准,并以评分和扣分的形式模拟人类评估者的分析过程。基于此,作者构建了一个名为SedarEval的新基准,涵盖长尾知识、数学、编码和逻辑推理等领域,包含1000个精心设计的问题,每个问题都配有自适应评分细则。为了进一步简化评估,作者训练了一个专门的评估语言模型(evaluator LM)来替代人类评分员。实验结果表明,使用相同训练数据,该评估语言模型比包括GPT-4在内的其他范式,与人类评分结果的符合率更高,突出了该方法的优越性和效率。数据集已开源。
🔬 方法详解
问题定义:现有的大语言模型评测方法通常采用通用的评分标准,这些标准缺乏针对性,无法充分考虑每个问题的具体特点和解决过程。这种泛化的评估方式导致评测结果不够精确,稳定性较差,难以准确反映模型在特定问题上的真实表现。
核心思路:论文的核心思路是借鉴人类考试评分的过程,为每个问题定制详细的评分细则(rubrics)。这些细则不仅包含主要的评分标准,还包括次要标准,并以评分和扣分的形式量化。通过这种方式,可以更精细地模拟人类评估者的分析过程,从而提高评测的准确性和可靠性。
技术框架:SedarEval的整体框架包含两个主要组成部分:一是自适应评分细则的构建,二是评估语言模型的训练。首先,针对SedarEval基准中的每个问题,人工构建详细的评分细则。然后,使用这些带有评分细则的数据集训练一个专门的评估语言模型(evaluator LM)。该模型的目标是学习如何根据评分细则对LLM的输出进行评分。
关键创新:该方法最重要的创新点在于引入了自适应评分细则的概念。与传统的通用评分标准不同,自适应评分细则能够根据问题的具体内容进行调整,从而更准确地评估LLM的性能。这种方法更贴近人类的评估方式,能够更全面地捕捉LLM的优点和不足。
关键设计:SedarEval基准包含1000个问题,涵盖长尾知识、数学、编码和逻辑推理等多个领域。每个问题都配有精心设计的自适应评分细则,这些细则详细描述了评分标准和扣分规则。评估语言模型(evaluator LM)的具体参数设置和训练细节在论文中未明确给出,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用相同训练数据,SedarEval训练的评估语言模型(evaluator LM)比包括GPT-4在内的其他范式,与人类评分结果的符合率更高。这证明了自适应评分细则的有效性和评估语言模型的优越性,为LLM评测提供了一种更可靠的方法。
🎯 应用场景
该研究成果可应用于各种需要评估LLM输出质量的场景,例如自动阅卷、模型性能评估、模型选择和模型改进。通过使用自适应评分细则和专门的评估语言模型,可以更高效、更准确地评估LLM的性能,从而推动LLM技术的进一步发展。
📄 摘要(原文)
The evaluation paradigm of LLM-as-judge gains popularity due to its significant reduction in human labor and time costs. This approach utilizes one or more large language models (LLMs) to assess the quality of outputs from other LLMs. However, existing methods rely on generic scoring rubrics that fail to consider the specificities of each question and its problem-solving process, compromising precision and stability in assessments. Inspired by human examination scoring processes, we propose a new evaluation paradigm based on self-adaptive rubrics. Specifically, we create detailed scoring rubrics for each question, capturing the primary and secondary criteria in a structured format of scoring and deduction points that mimic a human evaluator's analytical process. Building on this paradigm, we further develop a novel benchmark called SedarEval, which covers a range of domains including long-tail knowledge, mathematics, coding, and logical reasoning. SedarEval consists of 1,000 meticulously crafted questions, each with its own self-adaptive rubric. To further streamline the evaluation, we train a specialized evaluator language model (evaluator LM) to supplant human graders. Using the same training data, our evaluator LM achieves a higher concordance rate with human grading results than other paradigms, including GPT-4, highlighting the superiority and efficiency of our approach. We release our dataset at https://github.com/wwn1233/sedareval.