CalibraEval: Calibrating Prediction Distribution to Mitigate Selection Bias in LLMs-as-Judges

📄 arXiv: 2410.15393v1 📥 PDF

作者: Haitao Li, Junjie Chen, Qingyao Ai, Zhumin Chu, Yujia Zhou, Qian Dong, Yiqun Liu

分类: cs.CL

发布日期: 2024-10-20

备注: 13 pages


💡 一句话要点

CalibraEval:校准LLM预测分布以缓解LLM-as-Judges中的选择偏差

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 自动评估 选择偏差 无监督学习 校准 排序学习 LLM-as-Judges

📋 核心要点

  1. 现有LLM-as-Judges方法在成对比较中存在选择偏差,导致评估结果不一致且不公平。
  2. CalibraEval通过优化预测分布,使其与无偏分布对齐,从而减轻选择偏差,无需标签。
  3. 实验表明,CalibraEval在多个基准测试中有效降低了选择偏差,并提升了评估性能。

📝 摘要(中文)

大型语言模型(LLMs)作为自动评估工具,用于评估生成自然语言的质量,即LLMs-as-Judges,已经展示出令人鼓舞的能力并迅速受到广泛关注。然而,当应用于候选响应的成对比较时,基于LLM的评估器通常表现出选择偏差。具体而言,当选项位置或ID token交换时,它们的判断可能变得不一致,从而损害评估结果的有效性和公平性。为了应对这一挑战,我们提出CalibraEval,一种新颖的无标签方法,用于在推理过程中减轻选择偏差。具体来说,CalibraEval将去偏见重新定义为一个优化任务,旨在调整观察到的预测分布,使其与无偏预测分布对齐。为了解决这个优化问题,我们提出了一种非参数保序算法(NOA)。该算法利用模型预测分布之间的偏序关系,从而无需显式标签和精确的数学函数建模。在多个代表性基准上对LLM的实证评估表明,与现有的去偏见方法相比,CalibraEval有效地减轻了选择偏差并提高了性能。这项工作标志着朝着构建更强大和无偏的自动评估框架迈出了一步,为提高AI驱动评估的可靠性铺平了道路。

🔬 方法详解

问题定义:论文旨在解决LLMs作为评估器(LLMs-as-Judges)时,在成对比较任务中存在的选择偏差问题。具体来说,当交换两个候选答案的位置或ID时,LLM的判断结果可能会不一致,这表明LLM的判断受到了与答案质量无关的因素的影响。现有方法通常需要额外的标签数据或者对偏差进行显式建模,这限制了其应用范围和泛化能力。

核心思路:CalibraEval的核心思路是将去偏问题转化为一个优化问题,目标是调整观察到的(biased)预测分布,使其尽可能接近真实的、无偏的预测分布。论文假设存在一个理想的无偏分布,而观察到的分布由于选择偏差而偏离了这个理想状态。通过优化,可以校正这种偏差,从而提高评估的准确性和公平性。

技术框架:CalibraEval的整体框架包括以下几个步骤:1) 收集LLM在不同选项位置或ID下的预测分布;2) 利用非参数保序算法(NOA)对这些分布进行调整,使其满足一定的偏序关系;3) 将调整后的分布作为最终的预测结果。NOA算法是该框架的关键组成部分,它利用了模型预测分布之间的偏序关系,避免了对偏差进行显式建模。

关键创新:CalibraEval的关键创新在于提出了一种无标签的去偏方法,它不需要额外的标签数据,而是通过优化预测分布本身来实现去偏。此外,提出的非参数保序算法(NOA)能够有效地利用模型预测分布之间的偏序关系,避免了对偏差进行显式建模,从而提高了方法的鲁棒性和泛化能力。与现有方法相比,CalibraEval更加灵活,可以应用于各种不同的LLM和评估任务。

关键设计:NOA算法的关键设计在于利用了模型预测分布之间的偏序关系。具体来说,如果一个答案在某个位置或ID下被LLM认为优于另一个答案,那么在交换位置或ID后,它仍然应该被认为优于另一个答案。NOA算法通过调整预测分布,使其满足这种偏序关系,从而实现去偏。算法的具体实现细节包括如何定义偏序关系、如何计算调整后的分布等。论文中没有明确提及损失函数或网络结构,因为该方法是无参数的,不涉及神经网络的训练。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,CalibraEval在多个基准测试中显著降低了选择偏差,并提高了评估性能。与现有去偏方法相比,CalibraEval在无需额外标签的情况下,取得了更优的性能。具体性能提升数据在论文中给出,表明该方法在实际应用中具有显著优势。

🎯 应用场景

CalibraEval可广泛应用于各种需要使用LLM进行自动评估的场景,例如:自动阅卷、代码生成质量评估、对话系统评估等。通过减轻选择偏差,提高评估的公平性和准确性,从而促进AI技术的可靠应用和发展。该方法还有助于构建更值得信赖的AI系统,减少偏见带来的负面影响。

📄 摘要(原文)

The use of large language models (LLMs) as automated evaluation tools to assess the quality of generated natural language, known as LLMs-as-Judges, has demonstrated promising capabilities and is rapidly gaining widespread attention. However, when applied to pairwise comparisons of candidate responses, LLM-based evaluators often exhibit selection bias. Specifically, their judgments may become inconsistent when the option positions or ID tokens are swapped, compromising the effectiveness and fairness of the evaluation result. To address this challenge, we introduce CalibraEval, a novel label-free method for mitigating selection bias during inference. Specifically, CalibraEval reformulates debiasing as an optimization task aimed at adjusting observed prediction distributions to align with unbiased prediction distributions. To solve this optimization problem, we propose a non-parametric order-preserving algorithm (NOA). This algorithm leverages the partial order relationships between model prediction distributions, thereby eliminating the need for explicit labels and precise mathematical function modeling.Empirical evaluations of LLMs in multiple representative benchmarks demonstrate that CalibraEval effectively mitigates selection bias and improves performance compared to existing debiasing methods. This work marks a step toward building more robust and unbiased automated evaluation frameworks, paving the way for improved reliability in AI-driven assessments