Toward Robust LLM-Based Judges: Taxonomic Bias Evaluation and Debiasing Optimization

📄 arXiv: 2603.08091v1 📥 PDF

作者: Hongli Zhou, Hui Huang, Rui Zhang, Kehai Chen, Bing Xu, Conghui Zhu, Tiejun Zhao, Muyun Yang

分类: cs.CL

发布日期: 2026-03-09


💡 一句话要点

提出JudgeBiasBench基准,并优化LLM评判偏见,提升自动化评估可靠性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 评判偏见 自动化评估 基准测试 偏见感知训练

📋 核心要点

  1. 现有LLM评判器存在偏见,影响自动化评估的可靠性,且缺乏全面的偏见评估基准。
  2. 提出JudgeBiasBench基准,系统量化LLM评判器中的偏见,并构建偏见增强的评估实例。
  3. 提出偏见感知训练,通过强化学习和对比学习,有效减少评判偏见,同时保留评估能力。

📝 摘要(中文)

基于大型语言模型(LLM)的评判器被广泛应用于自动化评估和奖励建模,但其判断常受偏见影响。准确评估这些偏见对于确保LLM评判器的可靠性至关重要。然而,现有研究通常仅在单一评判器形式(生成式或判别式)下研究有限的偏见,缺乏全面评估。为了弥补这一差距,我们提出了JudgeBiasBench,一个用于系统量化LLM评判器中偏见的基准。JudgeBiasBench定义了跨4个维度的评判偏见分类,并通过受控的偏见注入流程构建了偏见增强的评估实例,涵盖12种代表性偏见类型。我们对生成式和判别式评判器进行了广泛实验,揭示了当前评判器表现出显著且多样的偏见模式,这些模式常常损害自动化评估的可靠性。为了减轻评判偏见,我们提出了偏见感知训练,将与偏见相关的属性显式地纳入训练过程,鼓励评判器将任务相关的质量与偏见相关的线索解耦。通过采用强化学习用于生成式评判器和对比学习用于判别式评判器,我们的方法有效地减少了评判偏见,同时在很大程度上保留了一般的评估能力。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)作为评判器时存在的偏见问题。现有方法通常只关注有限的几种偏见,并且缺乏一个全面的基准来评估不同类型的偏见。此外,现有方法没有有效地将任务相关的质量与偏见相关的线索解耦,导致评判结果受到偏见的影响。

核心思路:论文的核心思路是构建一个全面的偏见评估基准(JudgeBiasBench),并提出一种偏见感知训练方法,显式地将偏见信息纳入训练过程中,从而使LLM评判器能够区分任务相关的质量和偏见相关的线索,减少偏见的影响。

技术框架:整体框架包括两个主要部分:1) JudgeBiasBench基准的构建,用于系统地评估LLM评判器中的偏见;2) 偏见感知训练,用于减轻评判偏见。JudgeBiasBench通过定义偏见分类,并使用偏见注入流程构建偏见增强的评估实例。偏见感知训练针对生成式和判别式评判器分别采用强化学习和对比学习。

关键创新:论文的关键创新在于:1) 提出了JudgeBiasBench基准,提供了一个全面的偏见评估框架;2) 提出了偏见感知训练方法,通过显式地将偏见信息纳入训练过程中,有效地减少了评判偏见。与现有方法相比,该方法能够更好地解耦任务相关的质量和偏见相关的线索。

关键设计:对于生成式评判器,采用强化学习,奖励函数的设计考虑了偏见因素。对于判别式评判器,采用对比学习,通过构建正负样本对,鼓励模型区分任务相关的质量和偏见相关的线索。具体的损失函数和网络结构细节在论文中有详细描述,但此处未提供具体参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,JudgeBiasBench能够有效评估LLM评判器中的偏见。偏见感知训练方法在减少评判偏见方面取得了显著效果,同时保持了较好的评估能力。具体性能数据和提升幅度在论文中有详细展示,例如在特定偏见类型上,评估准确率提升了XX%。

🎯 应用场景

该研究成果可应用于各种需要自动化评估的场景,例如自动代码评估、文本生成质量评估、对话系统评估等。通过降低LLM评判器的偏见,可以提高自动化评估的公平性和可靠性,从而促进相关技术的发展和应用。未来,该研究可以扩展到更多类型的偏见和更复杂的评估任务。

📄 摘要(原文)

Large language model (LLM)-based judges are widely adopted for automated evaluation and reward modeling, yet their judgments are often affected by judgment biases. Accurately evaluating these biases is essential for ensuring the reliability of LLM-based judges. However, existing studies typically investigate limited biases under a single judge formulation, either generative or discriminative, lacking a comprehensive evaluation. To bridge this gap, we propose JudgeBiasBench, a benchmark for systematically quantifying biases in LLM-based judges. JudgeBiasBench defines a taxonomy of judgment biases across 4 dimensions, and constructs bias-augmented evaluation instances through a controlled bias injection pipeline, covering 12 representative bias types. We conduct extensive experiments across both generative and discriminative judges, revealing that current judges exhibit significant and diverse bias patterns that often compromise the reliability of automated evaluation. To mitigate judgment bias, we propose bias-aware training that explicitly incorporates bias-related attributes into the training process, encouraging judges to disentangle task-relevant quality from bias-correlated cues. By adopting reinforcement learning for generative judges and contrastive learning for discriminative judges, our methods effectively reduce judgment biases while largely preserving general evaluation capability.