HREF: Human Response-Guided Evaluation of Instruction Following in Language Models

📄 arXiv: 2412.15524v2 📥 PDF

作者: Xinxi Lyu, Yizhong Wang, Hannaneh Hajishirzi, Pradeep Dasigi

分类: cs.CL, cs.AI

发布日期: 2024-12-20 (更新: 2025-03-24)

备注: 28 pages, 15 figures


💡 一句话要点

HREF:提出基于人类回复指导的指令跟随语言模型评估方法,解决现有评估偏差问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型评估 指令跟随 人类回复指导 自动评估 评估基准

📋 核心要点

  1. 现有LLM指令跟随能力评估严重依赖LLM自身,导致评估结果存在偏见,与人类判断存在偏差。
  2. 论文提出利用人类编写的回复来指导LLM的指令跟随能力评估,从而提高评估的可靠性,更贴近人类的判断标准。
  3. 实验结果表明,该方法在多个任务上提高了自动评估与人类判断的一致性,最高提升达3.2%,并构建了新的评估基准HREF。

📝 摘要(中文)

本文重新评估了大型语言模型(LLM)在指令跟随能力评估中的各种自动评估方法,现有方法严重依赖强大的LLM作为评判者,引入了未解决的偏差,导致判断结果偏离人类评判。通过利用人类编写的回复,实验表明可以提高自动评估的可靠性,在各种任务中与人类评判的一致性提高了3.2%。研究发现,人类编写的回复在指令跟随方面提供了与模型生成回复不同的视角,应作为比较模型回复时的补充上下文。基于这些观察,本文开发了一个新的评估基准,即人类回复指导的指令跟随评估(HREF),包含11个任务类别中的4,258个样本,采用复合评估设置,为每个类别选择最可靠的方法。HREF强调个体任务表现,且无数据污染。最后,研究了HREF中关键设计选择的影响,包括评估集的大小、评判模型、基线模型和提示模板。作者维护了一个实时排行榜,用于评估LLM在HREF私有评估集上的表现。

🔬 方法详解

问题定义:现有大型语言模型(LLM)的指令跟随能力评估主要依赖于另一个强大的LLM作为评判者。这种方法存在固有的偏差,因为评判者的偏好和能力可能会影响评估结果,使其与人类的判断产生偏差。此外,仅仅依赖模型生成的回复进行评估,忽略了人类对于指令的理解和回复方式,导致评估不够全面。

核心思路:论文的核心思路是引入人类编写的回复作为评估的指导。通过将人类回复纳入评估过程,可以提供一个更贴近人类理解和期望的参考标准,从而减少评估偏差,提高评估的可靠性。这种方法假设人类回复能够提供模型生成回复之外的补充信息,从而更全面地评估模型的指令跟随能力。

技术框架:HREF评估框架的核心在于利用人类回复来指导自动评估过程。具体来说,对于每个指令,HREF包含模型生成的回复和人类编写的回复。评估过程会同时考虑这两种回复,并选择最可靠的评估方法。HREF构建了一个包含4,258个样本的评估数据集,涵盖11个不同的任务类别。针对每个任务类别,HREF会选择最适合该任务的评估方法,从而实现复合评估。此外,HREF还提供了一个实时排行榜,用于评估LLM在私有评估集上的表现。

关键创新:该论文的关键创新在于将人类回复引入到LLM指令跟随能力的评估中。与传统的仅依赖模型生成回复的评估方法相比,HREF能够更全面、更准确地评估模型的指令跟随能力。此外,HREF的复合评估设置也能够针对不同的任务选择最合适的评估方法,从而进一步提高评估的可靠性。

关键设计:HREF的关键设计包括:1)构建包含多样化任务的数据集,覆盖11个任务类别;2)为每个任务类别选择最可靠的评估方法,实现复合评估;3)利用人类回复作为评估的指导,减少评估偏差;4)提供实时排行榜,方便模型开发者进行评估和比较;5)对评估集的大小、评判模型、基线模型和提示模板等关键设计选择进行深入研究,确保评估的有效性和可靠性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,利用人类编写的回复可以显著提高自动评估与人类判断的一致性,最高提升达3.2%。HREF在11个任务类别上进行了评估,并针对每个类别选择了最可靠的评估方法。此外,HREF还提供了一个实时排行榜,方便模型开发者进行评估和比较。实验还深入研究了评估集的大小、评判模型、基线模型和提示模板等关键设计选择的影响。

🎯 应用场景

该研究成果可应用于各种需要评估LLM指令跟随能力的场景,例如对话系统、智能助手、代码生成等。通过使用HREF,可以更准确地评估LLM的性能,从而选择更合适的模型,并改进模型的指令跟随能力。此外,HREF可以作为一个公共基准,促进LLM指令跟随能力评估的研究和发展。

📄 摘要(原文)

Evaluating the capability of Large Language Models (LLMs) in following instructions has heavily relied on a powerful LLM as the judge, introducing unresolved biases that deviate the judgments from human judges. In this work, we reevaluate various choices for automatic evaluation on a wide range of instruction-following tasks. We experiment with methods that leverage human-written responses and observe that they enhance the reliability of automatic evaluations across a wide range of tasks, resulting in up to a 3.2% improvement in agreement with human judges. We also discovered that human-written responses offer an orthogonal perspective to model-generated responses in following instructions and should be used as an additional context when comparing model responses. Based on these observations, we develop a new evaluation benchmark, Human Response-Guided Evaluation of Instruction Following (HREF), comprising 4,258 samples across 11 task categories with a composite evaluation setup, employing a composite evaluation setup that selects the most reliable method for each category. In addition to providing reliable evaluation, HREF emphasizes individual task performance and is free from contamination. Finally, we study the impact of key design choices in HREF, including the size of the evaluation set, the judge model, the baseline model, and the prompt template. We host a live leaderboard that evaluates LLMs on the private evaluation set of HREF.