SLMEval: Entropy-Based Calibration for Human-Aligned Evaluation of Large Language Models
作者: Roland Daynauth, Christopher Clarke, Krisztian Flautner, Lingjia Tang, Jason Mars
分类: cs.CL, cs.AI
发布日期: 2025-05-21
💡 一句话要点
提出SLMEval,基于熵最大化校准LLM评估器,提升与人类判断的一致性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM评估 校准方法 熵最大化 人类对齐 开放式任务
📋 核心要点
- 现有LLM评估器校准方法在开放式任务中表现不佳,与人类判断的相关性弱甚至为负。
- SLMEval通过熵最大化估计模型质量的潜在分布,并重新加权评估器分数,从而实现校准。
- 实验表明,SLMEval在真实世界用例和公共基准上与人类评估具有更强的相关性,并降低了评估成本。
📝 摘要(中文)
LLM-as-a-Judge范式为评估语言模型提供了一种可扩展且无需参考的方法。尽管已经提出了几种校准技术来更好地使这些评估器与人类判断对齐,但先前的研究主要集中在狭窄、结构良好的基准上。因此,这些校准方法是否能推广到真实的、开放式的任务中仍然不清楚。本文表明,SOTA校准评估器在这些设置中经常失效,与人类判断表现出微弱甚至负相关的关系。为了解决这个问题,我们提出了一种新颖而高效的校准方法SLMEval,它基于少量人类偏好数据上的熵最大化。通过估计模型质量的潜在分布并相应地重新加权评估器分数,SLMEval在两个真实世界的生产用例和公共基准测试中实现了与人类评估的强相关性。例如,在一个这样的任务中,SLMEval实现了与人类判断的0.57的Spearman相关性,而G-Eval产生了负相关。此外,与基于GPT-4的校准评估器(如G-eval)相比,SLMEval降低了5-30倍的评估成本。
🔬 方法详解
问题定义:论文旨在解决现有LLM评估器在真实开放场景下与人类判断不一致的问题。现有校准方法在结构化基准上表现良好,但在实际应用中效果不佳,甚至出现负相关,无法准确反映模型质量。
核心思路:SLMEval的核心思路是利用少量人工标注的偏好数据,通过最大化熵来学习一个潜在的模型质量分布。这个分布用于重新加权LLM评估器的原始分数,从而使评估结果更符合人类的判断。最大化熵的目的是在满足人工偏好约束的前提下,尽可能地保持评估结果的多样性,避免过度拟合。
技术框架:SLMEval的整体流程包括以下几个步骤:1) 使用LLM评估器对模型输出进行打分;2) 收集少量人工标注的偏好数据,即哪些输出更好;3) 基于人工偏好数据,通过最大化熵来估计模型质量的潜在分布;4) 使用估计的分布重新加权LLM评估器的原始分数,得到最终的评估结果。
关键创新:SLMEval的关键创新在于使用熵最大化来校准LLM评估器。与传统的校准方法不同,SLMEval不依赖于大量的标注数据,而是通过最大化熵来学习一个更鲁棒的模型质量分布。这种方法能够更好地适应开放式任务,并提高与人类判断的相关性。
关键设计:SLMEval的关键设计包括:1) 使用对数线性模型来参数化模型质量的潜在分布;2) 使用拉格朗日乘子法来求解熵最大化问题,其中人工偏好数据作为约束条件;3) 使用梯度下降法来优化拉格朗日乘子,从而得到最终的模型质量分布。
📊 实验亮点
SLMEval在真实世界的生产用例和公共基准测试中表现出色。例如,在一个任务中,SLMEval实现了与人类判断的0.57的Spearman相关性,而G-Eval产生了负相关。此外,与G-eval等基于GPT-4的校准评估器相比,SLMEval降低了5-30倍的评估成本,具有更高的效率。
🎯 应用场景
SLMEval可应用于各种需要评估LLM生成质量的场景,例如对话系统、文本摘要、代码生成等。它可以帮助开发者更准确地评估模型性能,从而更好地进行模型选择和优化。此外,SLMEval的低成本特性使其能够应用于大规模的自动化评估,加速LLM的开发和部署。
📄 摘要(原文)
The LLM-as-a-Judge paradigm offers a scalable, reference-free approach for evaluating language models. Although several calibration techniques have been proposed to better align these evaluators with human judgment, prior studies focus primarily on narrow, well-structured benchmarks. As a result, it remains unclear whether such calibrations generalize to real-world, open-ended tasks. In this work, we show that SOTA calibrated evaluators often fail in these settings, exhibiting weak or even negative correlation with human judgments. To address this, we propose SLMEval, a novel and efficient calibration method based on entropy maximization over a small amount of human preference data. By estimating a latent distribution over model quality and reweighting evaluator scores accordingly, SLMEval achieves strong correlation with human evaluations across two real-world production use cases and the public benchmark. For example, on one such task, SLMEval achieves a Spearman correlation of 0.57 with human judgments, while G-Eval yields a negative correlation. In addition, SLMEval reduces evaluation costs by 5-30x compared to GPT-4-based calibrated evaluators such as G-eval.