Beyond Consensus: Mitigating the Agreeableness Bias in LLM Judge Evaluations

作者: Suryaansh Jain, Umair Z. Ahmed, Shubham Sahai, Ben Leong

分类: cs.AI

发布日期: 2025-10-13 (更新: 2025-12-24)

💡 一句话要点

提出少数否决与回归模型，缓解LLM评判中的一致性偏差，提升代码评估精度。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: LLM评判 一致性偏差 少数否决 回归模型 代码评估 偏差建模

📋 核心要点

现有LLM评判方法存在严重的一致性偏差，难以准确识别无效输出，导致评估结果虚高。
提出最优少数否决策略和回归模型，前者通过否决机制降低偏差，后者直接建模并校正偏差。
实验表明，在代码评估任务中，回归模型将最大绝对误差降低至1.2%，显著优于现有集成方法。

📝 摘要（中文）

新的大型语言模型（LLMs）不断涌现，应用开发者面临着是否切换到新模型的艰巨任务。虽然人工评估仍然是黄金标准，但成本高昂且难以扩展。目前最先进的方法是使用LLMs作为评估者（LLM-as-a-judge），但这种方法存在一个关键缺陷：LLMs表现出很强的积极偏差。我们提供的经验证据表明，虽然LLMs可以高精度地识别有效输出（即，真阳性率96%），但它们在识别无效输出方面非常差（即，真阴性率<25%）。这种系统性偏差，加上类别不平衡，通常会导致虚高的可靠性评分。虽然像多数投票这样的集成方法有所帮助，但我们表明它们还不够好。我们引入了一种最优的少数否决策略，该策略能够应对数据缺失并很大程度上缓解这种偏差。对于需要更高精度的场景，我们提出了一种新颖的基于回归的框架，该框架使用一小部分人工标注的ground truth数据直接对验证器的偏差进行建模。在一个具有挑战性的代码反馈任务中，针对366个高中Python程序，我们的回归方法将最大绝对误差降低到仅1.2%，比性能最佳的14个最先进LLM的集成方法提高了2倍。

🔬 方法详解

问题定义：论文旨在解决使用LLM作为评判器时，由于LLM固有的“一致性偏差”（Agreeableness Bias）而导致的评估不准确问题。现有方法，如多数投票，无法有效缓解这种偏差，尤其是在识别无效输出时表现较差，导致评估结果的可靠性降低。

核心思路：论文的核心思路是识别并缓解LLM评判中的一致性偏差。通过引入少数否决策略，利用LLM识别有效输出的高准确率，减少错误接受无效输出的情况。对于更高精度的需求，采用回归模型直接建模并校正LLM的偏差。

技术框架：论文提出了两种主要方法：1) 最优少数否决策略：通过设置否决阈值，当少数LLM评判为无效时，则整体判定为无效，从而降低假阳性率。该策略考虑了数据缺失的情况。2) 基于回归的偏差建模：使用少量人工标注数据作为ground truth，训练回归模型来预测LLM的偏差，并利用该模型校正LLM的评估结果。整体流程包括数据收集、LLM评判、偏差建模/少数否决、结果校正/判定。

关键创新：论文的关键创新在于：1) 提出了“一致性偏差”的概念，并对其进行了量化分析。2) 设计了最优少数否决策略，能够在数据缺失的情况下有效降低偏差。3) 构建了基于回归模型的偏差建模框架，能够直接学习并校正LLM的偏差，显著提高评估精度。

关键设计：在少数否决策略中，关键在于确定最优的否决阈值，这需要根据具体的LLM性能和数据分布进行调整。在回归模型中，关键在于选择合适的特征来描述LLM的偏差，例如LLM的类型、输入文本的特征等。损失函数可以选择均方误差或绝对误差，以最小化预测偏差与真实偏差之间的差异。回归模型的具体结构（如线性回归、神经网络等）可以根据数据的复杂程度进行选择。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在高中Python程序代码反馈任务中，基于回归的偏差建模方法将最大绝对误差降低至1.2%，相比于由14个最先进LLM组成的集成方法，性能提升了2倍。这表明该方法能够有效缓解LLM评判中的一致性偏差，显著提高评估精度。

🎯 应用场景

该研究成果可广泛应用于LLM的自动评估、代码生成质量评估、文本摘要质量评估等领域。通过降低LLM评判中的偏差，可以更准确地评估LLM的性能，从而指导LLM的开发和优化。此外，该方法还可以应用于其他需要自动评估的场景，例如机器翻译质量评估、图像生成质量评估等。

📄 摘要（原文）

New Large Language Models (LLMs) become available every few weeks, and modern application developers confronted with the unenviable task of having to decide if they should switch to a new model. While human evaluation remains the gold standard, it is costly and unscalable. The state-of-the-art approach is to use LLMs as evaluators ( LLM-as-a-judge), but this suffers from a critical flaw: LLMs exhibit a strong positive bias. We provide empirical evidence showing that while LLMs can identify valid outputs with high accuracy (i.e., True Positive Rate 96%), they are remarkably poor at identifying invalid ones (i.e., True Negative Rate <25%). This systematic bias, coupled with class imbalance, often leads to inflated reliability scores. While ensemble-based methods like majority voting can help, we show that they are not good enough. We introduce an optimal minority-veto strategy that is resilient to missing data and mitigates this bias to a large extent. For scenarios requiring even higher precision, we propose a novel regression-based framework that directly models the validator bias using a small set of human-annotated ground truth data. On a challenging code feedback task over 366 high-school Python programs, our regression approach reduces the maximum absolute error to just 1.2%, achieving a 2x improvement over the best-performing ensemble of 14 state-of-the-art LLMs.

Beyond Consensus: Mitigating the Agreeableness Bias in LLM Judge Evaluations

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理