Curse of Knowledge: When Complex Evaluation Context Benefits yet Biases LLM Judges

作者: Weiyuan Li, Xintao Wang, Siyu Yuan, Rui Xu, Jiangjie Chen, Qingqing Dong, Yanghua Xiao, Deqing Yang

分类: cs.CL

发布日期: 2025-09-03 (更新: 2025-10-31)

备注: EMNLP 2025 Findings

💡 一句话要点

构建ComplexEval基准，揭示并量化LLM评判在复杂评估中存在的辅助信息诱导偏差问题。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 LLM评判 复杂评估 辅助信息偏差 ComplexEval 基准测试 偏差量化

📋 核心要点

现有LLM评判方法在简单场景表现良好，但在复杂任务中，其可靠性面临多方面规则、非结构化参考答案等挑战。
论文构建ComplexEval基准，旨在系统性地暴露和量化LLM评判中存在的辅助信息诱导偏差。
实验结果表明，所有评估模型都容易受到偏差影响，且偏差程度随任务复杂性增加，大型推理模型表现出反常的脆弱性。

📝 摘要（中文）

随着大型语言模型(LLMs)能力的增强，它们面临着日益多样化和复杂的任务，这使得可靠的评估变得具有挑战性。将LLMs作为评判者的范式已经成为一种可扩展的解决方案，但先前的工作主要集中在简单的设置中。它们在复杂任务中的可靠性——其中多方面的规则、非结构化的参考答案和细微的判别标准至关重要——仍然未被充分研究。在本文中，我们构建了ComplexEval，这是一个旨在系统地暴露和量化辅助信息诱导偏差的挑战基准。我们系统地调查并验证了12个基本场景和3个高级场景中先前未探索的6种偏差。关键发现表明：（1）所有评估的模型都表现出对这些偏差的显著敏感性，并且偏差幅度随任务复杂性而增加；（2）值得注意的是，大型推理模型（LRMs）表现出反常的脆弱性。我们的深入分析为提高评估信号的准确性和可验证性提供了关键见解，为更通用和鲁棒的评估模型铺平了道路。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLMs）作为评判者在复杂评估任务中存在的偏差问题。现有的LLM评判方法在简单场景下表现尚可，但在涉及多方面规则、非结构化参考答案和细微判别标准的复杂任务中，其可靠性受到挑战。这些复杂任务容易受到辅助信息诱导偏差的影响，导致评估结果不准确甚至产生误导。

核心思路：论文的核心思路是通过构建一个专门的基准测试集ComplexEval，系统性地暴露和量化LLM评判中存在的辅助信息诱导偏差。通过设计包含多种偏差类型的测试用例，评估LLM评判者在不同复杂程度任务下的表现，从而揭示其潜在的脆弱性。这样设计的目的是为了更全面地了解LLM评判者的局限性，并为改进评估方法提供指导。

技术框架：论文的技术框架主要包括以下几个部分：1）构建ComplexEval基准，包含12个基本场景和3个高级场景，涵盖6种不同类型的辅助信息诱导偏差；2）选择多个LLM作为评判者，包括不同规模和类型的模型，例如GPT-3.5、GPT-4等；3）设计实验流程，针对每个测试用例，让LLM评判者进行评估，并记录其输出结果；4）分析实验结果，量化不同LLM评判者在不同偏差类型下的表现，并进行深入分析，找出导致偏差的原因。

关键创新：论文最重要的技术创新点在于构建了ComplexEval基准，该基准专门用于评估LLM评判者在复杂评估任务中的偏差。与现有方法相比，ComplexEval更加关注复杂任务中存在的辅助信息诱导偏差，并设计了多种测试用例来系统性地暴露这些偏差。此外，论文还深入分析了大型推理模型（LRMs）在复杂评估任务中表现出的反常脆弱性，为改进LLM评判方法提供了新的视角。

关键设计：ComplexEval基准的关键设计在于其测试用例的多样性和复杂性。每个测试用例都包含多个维度的信息，例如多方面的规则、非结构化的参考答案和细微的判别标准。此外，测试用例还包含了不同类型的辅助信息，例如错误的先验知识、不相关的上下文信息等，用于诱导LLM评判者产生偏差。论文还设计了相应的评估指标，用于量化LLM评判者在不同偏差类型下的表现。

📊 实验亮点

实验结果表明，所有评估模型都表现出对辅助信息诱导偏差的显著敏感性，且偏差幅度随任务复杂性增加。值得注意的是，大型推理模型（LRMs）表现出反常的脆弱性，这表明即使是强大的LLM也可能在复杂评估任务中受到偏差的影响。ComplexEval基准的构建和实验结果为改进LLM评判方法提供了重要的参考。

🎯 应用场景

该研究成果可应用于提升LLM评判的可靠性和公正性，尤其是在需要复杂评估的场景，如教育评估、科研评审、内容审核等。通过识别和减轻LLM评判中的偏差，可以提高评估结果的准确性和可信度，从而促进相关领域的健康发展。未来，该研究可以扩展到更多类型的复杂任务和偏差类型，并开发更有效的偏差缓解方法。

📄 摘要（原文）

As large language models (LLMs) grow more capable, they face increasingly diverse and complex tasks, making reliable evaluation challenging. The paradigm of LLMs as judges has emerged as a scalable solution, yet prior work primarily focuses on simple settings. Their reliability in complex tasks--where multi-faceted rubrics, unstructured reference answers, and nuanced criteria are critical--remains understudied. In this paper, we constructed ComplexEval, a challenge benchmark designed to systematically expose and quantify Auxiliary Information Induced Biases. We systematically investigated and validated 6 previously unexplored biases across 12 basic and 3 advanced scenarios. Key findings reveal: (1) all evaluated models exhibit significant susceptibility to these biases, with bias magnitude scaling with task complexity; (2) notably, Large Reasoning Models (LRMs) show paradoxical vulnerability. Our in-depth analysis offers crucial insights for improving the accuracy and verifiability of evaluation signals, paving the way for more general and robust evaluation models.

Curse of Knowledge: When Complex Evaluation Context Benefits yet Biases LLM Judges

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册