Evaluating the Evaluator: Measuring LLMs' Adherence to Task Evaluation Instructions

作者: Bhuvanashree Murugadoss, Christian Poelitz, Ian Drosos, Vu Le, Nick McKenna, Carina Suzana Negreanu, Chris Parnin, Advait Sarkar

分类: cs.AI, cs.CL

发布日期: 2024-08-16

💡 一句话要点

评估评估者：衡量LLM作为评估者对任务评估指令的遵循程度

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: LLM评估 指令遵循 Prompt工程 困惑度 质量评估

📋 核心要点

现有方法依赖人工评估，成本高昂且效率低下，而使用LLM进行自动评估的有效性受到指令遵循程度的挑战。
该研究通过分析不同详细程度的prompt指令，以及与无prompt方法（困惑度）的对比，来评估LLM作为评估者对指令的遵循程度。
实验结果表明，LLM评估者对详细指令的依赖性较低，且困惑度在某些情况下比prompt方法更符合人类判断。

📝 摘要（中文）

“LLMs-as-a-judge”是一种新兴方法，它使用大型语言模型（LLM）自动评估任务，取代了人工评估。由于广泛使用RLHF（基于人类反馈的强化学习），GPT4和Llama3等先进LLM在被提示进行质量判断（例如文本的连贯性）时，应与人类偏好高度一致。然而，LLM的评估是否仅基于prompt中的指令，还是反映了其对高质量数据的偏好（类似于其微调数据）尚不清楚。为了研究prompt对LLM评估与人类判断一致性的影响，我们分析了针对不同LLM的、包含不同详细程度指令的prompt。此外，我们还将prompt方法与使用模型困惑度作为质量度量的无prompt方法进行了比较。我们整合了LLM评估中常用的质量标准分类，并将其作为模型评估者的严格基准。总体而言，我们发现LLM评估者从高度详细的prompt指令中获益甚微，并且困惑度有时比prompt方法更能与人类判断对齐，尤其是在文本质量方面。

🔬 方法详解

问题定义：论文旨在解决LLM作为评估者时，其评估结果是否真正遵循prompt指令，还是受到模型自身偏好的影响。现有方法依赖人工评估，成本高昂且主观性强。使用LLM进行自动评估虽然降低了成本，但其评估结果的可靠性受到质疑，因为LLM可能受到训练数据的影响，而非完全遵循prompt中的指令。

核心思路：论文的核心思路是通过系统性地改变prompt中指令的详细程度，观察LLM评估结果的变化，并与无prompt方法（困惑度）进行对比，从而评估LLM对指令的遵循程度。通过这种方式，可以量化prompt对LLM评估的影响，并揭示LLM评估结果中指令遵循和模型偏好之间的关系。

技术框架：该研究的技术框架主要包括以下几个步骤：1) 收集并整理常用的质量评估标准，构建质量标准分类；2) 设计不同详细程度的prompt，用于指导LLM进行评估；3) 使用不同的LLM作为评估者，对同一批数据进行评估；4) 使用困惑度作为无prompt的质量度量；5) 将LLM的评估结果、困惑度以及人类评估结果进行对比分析，评估LLM对指令的遵循程度。

关键创新：该研究的关键创新在于：1) 系统性地研究了prompt对LLM评估结果的影响，量化了指令遵循和模型偏好之间的关系；2) 提出了使用困惑度作为无prompt的质量度量，并将其与prompt方法进行了对比；3) 构建了一个质量标准分类，为LLM评估提供了一个基准。

关键设计：论文的关键设计包括：1) prompt的设计：设计了不同详细程度的prompt，从简单的质量描述到详细的评估标准，以观察LLM评估结果的变化；2) 困惑度的计算：使用LLM计算文本的困惑度，作为无prompt的质量度量；3) 对比分析：将LLM的评估结果、困惑度以及人类评估结果进行对比分析，使用相关性系数等指标来评估LLM对指令的遵循程度。

🖼️ 关键图片

📊 实验亮点

研究表明，LLM评估者从高度详细的prompt指令中获益甚微，这表明LLM的评估结果受到其自身偏好的影响。更令人惊讶的是，困惑度有时比prompt方法更能与人类判断对齐，尤其是在文本质量方面。这些发现挑战了当前LLM评估的有效性，并为未来的研究方向提供了新的思路。

🎯 应用场景

该研究成果可应用于自动评估文本质量、代码质量等领域，降低人工评估成本，提高评估效率。通过了解LLM评估的局限性，可以更好地设计prompt，提高LLM评估的准确性和可靠性。此外，该研究还可以指导LLM的训练，使其更好地遵循指令，减少模型偏见。

📄 摘要（原文）

LLMs-as-a-judge is a recently popularized method which replaces human judgements in task evaluation (Zheng et al. 2024) with automatic evaluation using LLMs. Due to widespread use of RLHF (Reinforcement Learning from Human Feedback), state-of-the-art LLMs like GPT4 and Llama3 are expected to have strong alignment with human preferences when prompted for a quality judgement, such as the coherence of a text. While this seems beneficial, it is not clear whether the assessments by an LLM-as-a-judge constitute only an evaluation based on the instructions in the prompts, or reflect its preference for high-quality data similar to its fine-tune data. To investigate how much influence prompting the LLMs-as-a-judge has on the alignment of AI judgements to human judgements, we analyze prompts with increasing levels of instructions about the target quality of an evaluation, for several LLMs-as-a-judge. Further, we compare to a prompt-free method using model perplexity as a quality measure instead. We aggregate a taxonomy of quality criteria commonly used across state-of-the-art evaluations with LLMs and provide this as a rigorous benchmark of models as judges. Overall, we show that the LLMs-as-a-judge benefit only little from highly detailed instructions in prompts and that perplexity can sometimes align better with human judgements than prompting, especially on textual quality.

Evaluating the Evaluator: Measuring LLMs' Adherence to Task Evaluation Instructions

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理