Evaluating the Reliability and Fidelity of Automated Judgment Systems of Large Language Models

📄 arXiv: 2603.22214v1 📥 PDF

作者: Tom Biskupski, Stephan Kleber

分类: cs.CR, cs.AI, cs.LG

发布日期: 2026-03-23


💡 一句话要点

评估大型语言模型作为自动评估系统的可靠性和保真度

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 自动评估 质量评估 提示工程 可靠性 保真度 基准测试 自然语言处理

📋 核心要点

  1. 现有LLM质量评估依赖人工,成本高、效率低,且一致性难以保证,无法满足大规模评估需求。
  2. 提出利用LLM作为自动评估者,通过特定提示词引导LLM分析并判断其他LLM的输出质量。
  3. 实验表明,特定LLM(如GPT-4o、部分32B+开源模型)在适当提示下,与人类评估结果高度相关。

📝 摘要(中文)

本文研究使用大型语言模型(LLM)作为评估者,通过分析受害者机器学习模型(特别是LLM)的输出来评估其质量。LLM评估者是模型和专门设计的评估提示的组合,其中包含分析标准。与人工评估员相比,这种分析自动化能够更快、更一致地评估受害者模型的自由文本输出,从而扩展了LLM的质量和安全评估范围,覆盖更广泛的使用场景。由于LLM评估者是一种相对较新的技术,因此对其可靠性和与人类判断的一致性缺乏深入研究。本文评估了LLM作为受害者LLM自动质量评估器的适用性,测试了37个不同规模的对话LLM与5个不同评估提示的组合效果,以及二阶评估者和5个为此任务微调的模型。评估目标是为八个不同类别的判断任务策划数据集,并基于人类评估提供相应的真实标签。实验结果表明,当与合适的提示结合使用时,LLM评估者与人类评估具有高度相关性,特别是对于GPT-4o、几个参数≥32B的开源模型以及一些较小的模型,如Qwen2.5 14B。

🔬 方法详解

问题定义:论文旨在解决如何高效、可靠地评估大型语言模型(LLM)的输出质量问题。现有的人工评估方法成本高昂、耗时,且主观性强,难以保证评估的一致性和可扩展性。因此,需要一种自动化的评估方法来替代或辅助人工评估,以应对LLM日益增长的复杂性和应用范围。

核心思路:论文的核心思路是利用LLM本身的能力来评估其他LLM的输出质量。具体而言,将一个LLM作为“评估者”,通过精心设计的提示词(prompt)引导其分析和判断另一个LLM(“受害者模型”)的输出。这种方法的核心在于,LLM具有理解和生成自然语言的能力,可以模拟人类的判断过程,从而实现自动化的质量评估。

技术框架:该研究的技术框架主要包括以下几个部分:1) 受害者模型:待评估的LLM,可以是各种规模和类型的LLM。2) 评估者模型:用于评估受害者模型输出质量的LLM。3) 评估提示:精心设计的自然语言提示,用于指导评估者模型进行评估,包含评估标准和任务描述。4) 评估数据集:包含各种评估任务和人工标注的真实标签,用于验证评估者模型的性能。5) 评估指标:用于衡量评估者模型与人工评估结果一致性的指标,如相关性系数。研究中还探索了二阶评估者,即使用一个LLM评估另一个LLM的评估结果,以进一步提高评估的可靠性。

关键创新:论文的关键创新在于提出了一种基于LLM的自动化评估框架,该框架能够利用LLM的自然语言理解和生成能力,实现对其他LLM输出质量的自动评估。与传统的基于规则或人工特征的评估方法相比,该方法具有更高的灵活性和可扩展性,能够适应各种不同的评估任务和LLM。此外,论文还探索了评估提示的设计和二阶评估者的使用,进一步提高了评估的可靠性和准确性。

关键设计:论文的关键设计包括:1) 评估提示的设计:设计了5种不同的评估提示,以探索不同提示对评估结果的影响。2) 评估数据集的构建:构建了8个不同类别的评估数据集,涵盖各种不同的评估任务。3) 评估指标的选择:选择了相关性系数等指标来衡量评估者模型与人工评估结果的一致性。4) 模型选择:选择了37个不同规模的LLM作为评估者模型,包括GPT-4o、开源模型等,以探索不同模型在评估任务中的表现。5) 微调:对部分模型进行了微调,使其更适合评估任务。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GPT-4o以及部分参数量大于等于32B的开源模型,在合适的提示词引导下,与人类评估结果具有高度相关性。此外,一些较小的模型,如Qwen2.5 14B,也表现出良好的评估能力。这些结果表明,LLM作为自动评估者具有可行性,并且可以通过优化提示词和模型选择来提高评估的准确性和可靠性。

🎯 应用场景

该研究成果可应用于LLM的开发、测试和部署等多个环节。例如,在LLM开发阶段,可以使用自动评估系统快速评估不同模型的性能,从而加速模型迭代。在LLM部署前,可以使用自动评估系统进行安全性和质量评估,确保模型符合预期。此外,该技术还可用于构建LLM的自动化评测平台,为用户提供客观、公正的评估结果。

📄 摘要(原文)

A Large Language Model (LLM) as judge evaluates the quality of victim Machine Learning (ML) models, specifically LLMs, by analyzing their outputs. An LLM as judge is the combination of one model and one specifically engineered judge prompt that contains the criteria for the analysis. The resulting automation of the analysis scales up the complex evaluation of the victim models' free-form text outputs by faster and more consistent judgments compared to human reviewers. Thus, quality and security assessments of LLMs can cover a wide range of the victim models' use cases. Being a comparably new technique, LLMs as judges lack a thorough investigation for their reliability and agreement to human judgment. Our work evaluates the applicability of LLMs as automated quality assessors of victim LLMs. We test the efficacy of 37 differently sized conversational LLMs in combination with 5 different judge prompts, the concept of a second-level judge, and 5 models fine-tuned for the task as assessors. As assessment objective, we curate datasets for eight different categories of judgment tasks and the corresponding ground-truth labels based on human assessments. Our empirical results show a high correlation of LLMs as judges with human assessments, when combined with a suitable prompt, in particular for GPT-4o, several open-source models with $\geqslant$ 32B parameters, and a few smaller models like Qwen2.5 14B.