Preference Leakage: A Contamination Problem in LLM-as-a-judge

📄 arXiv: 2502.01534v2 📥 PDF

作者: Dawei Li, Renliang Sun, Yue Huang, Ming Zhong, Bohan Jiang, Jiawei Han, Xiangliang Zhang, Wei Wang, Huan Liu

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-02-03 (更新: 2025-05-24)

备注: 20 pages, 7 figures

🔗 代码/项目: GITHUB


💡 一句话要点

揭示LLM-as-a-judge中的偏好泄露问题,源于生成器与评估器之间的关联性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 LLM-as-a-judge 偏好泄露 数据污染 模型评估

📋 核心要点

  1. 现有方法忽略了LLM作为评判者时,数据生成器与评判者之间关联性可能导致的污染问题,即偏好泄露。
  2. 论文核心在于揭示并分析偏好泄露现象,通过定义生成器和评判者之间的相关性来研究其影响。
  3. 实验证明,评判者会偏向与其相关的学生模型,表明偏好泄露是一个普遍且难以检测的现实问题。

📝 摘要(中文)

大型语言模型(LLM)作为评判者和基于LLM的数据合成已成为模型开发中两种基础的LLM驱动的数据标注方法。虽然它们的结合显著提高了模型训练和评估的效率,但很少有人关注这种新的模型开发范式可能带来的污染问题。本文揭示了偏好泄露,这是LLM-as-a-judge中的一种污染问题,由合成数据生成器和基于LLM的评估器之间的相关性引起。为了研究这个问题,我们首先定义了数据生成器LLM和评判者LLM之间的三种常见相关性:是同一模型、具有继承关系以及属于同一模型家族。通过大量的实验,我们通过经验证实了由于跨多个LLM基线和基准的偏好泄露,评判者对与其相关的学生模型的偏见。进一步的分析表明,与之前在LLM-as-a-judge场景中发现的偏差相比,偏好泄露是一个普遍存在的现实问题,更难被检测到。所有这些发现都表明,偏好泄露是LLM-as-a-judge领域中一个普遍且具有挑战性的问题。我们发布了所有代码和数据。

🔬 方法详解

问题定义:论文旨在解决LLM作为评判者(LLM-as-a-judge)场景下,由于数据生成器和评判者之间的关联性而导致的偏好泄露问题。现有方法在利用LLM进行数据合成和模型评估时,忽略了这种关联性可能引入的偏差,导致评估结果不准确,模型训练受到污染。

核心思路:论文的核心思路是识别并量化数据生成器LLM和评判者LLM之间的相关性,并研究这种相关性如何导致评判者对与其相关的模型产生偏好。通过定义不同的相关性类型(同一模型、继承关系、同一模型家族),可以系统地分析偏好泄露的影响。

技术框架:论文的研究框架主要包括以下几个阶段:1) 定义数据生成器LLM和评判者LLM之间的相关性类型;2) 使用不同的LLM作为数据生成器和评判者,生成合成数据并进行模型评估;3) 通过实验分析评判者对不同相关性模型的偏好程度;4) 进一步分析偏好泄露的普遍性和检测难度。

关键创新:论文最重要的技术创新点在于首次明确提出了LLM-as-a-judge场景下的偏好泄露问题,并系统地研究了其影响。与以往关注LLM偏差的研究不同,本文关注的是由于数据生成过程引入的偏差,这在LLM驱动的模型开发中是一个新的视角。

关键设计:论文的关键设计包括:1) 定义了三种常见的LLM相关性类型,用于量化生成器和评判者之间的关联程度;2) 使用了多个LLM基线和基准数据集进行实验,以验证偏好泄露的普遍性;3) 设计了实验来评估偏好泄露的检测难度,并与已知的LLM偏差进行比较。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,评判者LLM对与其相关的学生模型存在显著的偏好,即使在不同的LLM基线和基准数据集上,这种偏好仍然存在。此外,研究发现偏好泄露比以往发现的LLM偏差更难检测,这突显了该问题的重要性和挑战性。具体性能数据未知,但实验结果一致表明偏好泄露是一个普遍存在的问题。

🎯 应用场景

该研究成果可应用于LLM驱动的模型开发流程中,帮助开发者识别和减轻偏好泄露的影响,提高模型评估的准确性和可靠性。通过选择不相关的LLM作为评判者,或者采用其他去偏方法,可以减少偏好泄露对模型训练的污染,从而提升模型的泛化能力和公平性。该研究对于构建更可靠、更公平的AI系统具有重要意义。

📄 摘要(原文)

Large Language Models (LLMs) as judges and LLM-based data synthesis have emerged as two fundamental LLM-driven data annotation methods in model development. While their combination significantly enhances the efficiency of model training and evaluation, little attention has been given to the potential contamination brought by this new model development paradigm. In this work, we expose preference leakage, a contamination problem in LLM-as-a-judge caused by the relatedness between the synthetic data generators and LLM-based evaluators. To study this issue, we first define three common relatednesses between the data generator LLM and the judge LLM: being the same model, having an inheritance relationship, and belonging to the same model family. Through extensive experiments, we empirically confirm the bias of judges towards their related student models caused by preference leakage across multiple LLM baselines and benchmarks. Further analysis suggests that preference leakage is a pervasive and real-world problem that is harder to detect compared to previously identified biases in LLM-as-a-judge scenarios. All of these findings imply that preference leakage is a widespread and challenging problem in the area of LLM-as-a-judge. We release all codes and data at: https://github.com/David-Li0406/Preference-Leakage.