Foundational Autoraters: Taming Large Language Models for Better Automatic Evaluation

📄 arXiv: 2407.10817v1 📥 PDF

作者: Tu Vu, Kalpesh Krishna, Salaheddin Alzubi, Chris Tar, Manaal Faruqui, Yun-Hsuan Sung

分类: cs.CL, cs.AI, cs.LG

发布日期: 2024-07-15

备注: 31 pages, 5 figures, 7 tables


💡 一句话要点

提出FLAMe:通过训练基础大语言模型提升自动评估能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 自动评估 奖励建模 多任务学习 模型微调

📋 核心要点

  1. 现有LLM评估依赖人工,成本高昂且难以规模化,阻碍了LLM的快速迭代和发展。
  2. FLAMe通过大规模高质量人工评估数据训练,显著提升了LLM自动评估的泛化性和准确性。
  3. 实验表明,FLAMe在多个评估基准上超越GPT-4等专有模型,并能有效降低评估偏差。

📝 摘要(中文)

随着大型语言模型(LLM)的进步,由于人工评估成本高昂,可靠地评估其输出变得更具挑战性。为了在改进LLM自动评估器方面取得进展,我们引入了FLAMe,一个基础大型自动评估模型家族。FLAMe在我们收集的包含500万+人工判断的大量且多样化的100+质量评估任务上进行训练,这些数据通过使用先前研究中公开发布的人工评估进行整理和标准化。FLAMe显著提高了对各种保留任务的泛化能力,在许多任务上优于在专有数据上训练的LLM,如GPT-4和Claude-3。我们表明,FLAMe也可以作为进一步下游微调的强大起点,以奖励建模评估为例(FLAMe-RM)。值得注意的是,在RewardBench上,我们的FLAMe-RM-24B模型(准确率为87.8%)是唯一在许可授权数据上训练的性能最佳的生成模型,优于GPT-4-0125(85.9%)和GPT-4o(84.7%)。此外,我们探索了一种更具计算效率的方法,使用一种新颖的尾部补丁微调策略来优化我们的FLAMe多任务混合模型,用于奖励建模评估(FLAMe-Opt-RM),在需要大约25倍更少的训练数据点的情况下,提供了具有竞争力的RewardBench性能。总的来说,我们的FLAMe变体在我们考虑的12个自动评估基准测试中的8个上优于所有流行的专有LLM-as-a-Judge模型,包括53个质量评估任务,包括RewardBench和LLM-AggreFact。最后,我们的分析表明,FLAMe在CoBBLEr自动评估器偏差基准测试中明显低于这些LLM-as-a-Judge模型,同时有效地识别了代码生成的高质量响应。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)自动评估的可靠性和泛化性问题。现有方法依赖于昂贵的人工评估,或者使用专有数据训练的LLM作为评估器,这些方法成本高昂,且可能存在偏差和泛化性不足的问题。

核心思路:论文的核心思路是利用大规模、多样化且高质量的人工评估数据,训练一个通用的基础自动评估模型(FLAMe)。通过在大量任务上进行训练,FLAMe能够学习到更鲁棒的评估标准,从而提高在未见任务上的泛化能力。

技术框架:FLAMe的整体框架包括以下几个主要步骤:1) 数据收集与标准化:收集来自不同来源的人工评估数据,并进行标准化处理,确保数据质量和一致性。2) 模型训练:使用收集到的数据训练FLAMe模型,使其能够预测人工评估结果。3) 模型评估:在多个评估基准上评估FLAMe的性能,并与其他方法进行比较。4) 模型微调:针对特定任务,对FLAMe进行微调,以进一步提高性能。

关键创新:论文的关键创新在于:1) 大规模高质量数据集:构建了一个包含500万+人工判断的大规模数据集,为模型训练提供了充足的数据支持。2) 通用基础模型:训练了一个通用的基础自动评估模型,能够泛化到多个评估任务。3) 尾部补丁微调策略:提出了一种新颖的尾部补丁微调策略,能够在计算资源有限的情况下,有效地优化模型性能。

关键设计:FLAMe模型采用了Transformer架构,并使用了多任务学习策略,在多个评估任务上进行联合训练。在尾部补丁微调中,只对模型的部分参数进行微调,从而降低了计算成本。损失函数采用了交叉熵损失,用于衡量模型预测结果与人工评估结果之间的差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

FLAMe在RewardBench上,FLAMe-RM-24B模型(准确率为87.8%)优于GPT-4-0125(85.9%)和GPT-4o(84.7%),成为在许可授权数据上训练的性能最佳的生成模型。FLAMe变体在12个自动评估基准测试中的8个上优于所有流行的专有LLM-as-a-Judge模型。

🎯 应用场景

FLAMe可广泛应用于LLM的开发和评估流程中,例如:自动评估LLM生成的文本质量、优化LLM的训练过程、降低人工评估成本、以及提高LLM在各种任务上的性能。该研究有助于推动LLM技术的快速发展和广泛应用。

📄 摘要(原文)

As large language models (LLMs) advance, it becomes more challenging to reliably evaluate their output due to the high costs of human evaluation. To make progress towards better LLM autoraters, we introduce FLAMe, a family of Foundational Large Autorater Models. FLAMe is trained on our large and diverse collection of 100+ quality assessment tasks comprising 5M+ human judgments, curated and standardized using publicly released human evaluations from previous research. FLAMe significantly improves generalization to a wide variety of held-out tasks, outperforming LLMs trained on proprietary data like GPT-4 and Claude-3 on many tasks. We show that FLAMe can also serve as a powerful starting point for further downstream fine-tuning, using reward modeling evaluation as a case study (FLAMe-RM). Notably, on RewardBench, our FLAMe-RM-24B model (with an accuracy of 87.8%) is the top-performing generative model trained exclusively on permissively licensed data, outperforming both GPT-4-0125 (85.9%) and GPT-4o (84.7%). Additionally, we explore a more computationally efficient approach using a novel tail-patch fine-tuning strategy to optimize our FLAMe multitask mixture for reward modeling evaluation (FLAMe-Opt-RM), offering competitive RewardBench performance while requiring approximately 25x less training datapoints. Overall, our FLAMe variants outperform all popular proprietary LLM-as-a-Judge models we consider across 8 out of 12 autorater evaluation benchmarks, encompassing 53 quality assessment tasks, including RewardBench and LLM-AggreFact. Finally, our analysis reveals that FLAMe is significantly less biased than these LLM-as-a-Judge models on the CoBBLEr autorater bias benchmark, while effectively identifying high-quality responses for code generation.