Curse of Knowledge: When Complex Evaluation Context Benefits yet Biases LLM Judges

📄 arXiv: 2509.03419v2 📥 PDF

作者: Weiyuan Li, Xintao Wang, Siyu Yuan, Rui Xu, Jiangjie Chen, Qingqing Dong, Yanghua Xiao, Deqing Yang

分类: cs.CL

发布日期: 2025-09-03 (更新: 2025-10-31)

备注: EMNLP 2025 Findings


💡 一句话要点

构建ComplexEval基准,揭示并量化LLM评判在复杂评估中存在的辅助信息诱导偏差。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 LLM评判 辅助信息偏差 复杂评估 基准测试 可信赖AI

📋 核心要点

  1. 现有LLM评判方法在复杂任务中面临挑战,缺乏对多方面标准、非结构化答案和细微判定的有效处理。
  2. 论文提出ComplexEval基准,旨在系统性地暴露和量化辅助信息诱导偏差,从而提升LLM评判的可靠性。
  3. 实验结果表明,现有LLM对辅助信息诱导偏差敏感,且偏差随任务复杂度增加,大型推理模型表现出脆弱性。

📝 摘要(中文)

随着大型语言模型(LLMs)能力日益增强,它们面临着越来越多样化和复杂的任务,这使得可靠的评估变得极具挑战性。将LLMs作为评判者的范式已经成为一种可扩展的解决方案,但先前的工作主要集中在简单的设置中。它们在复杂任务中的可靠性——其中多方面的评价标准、非结构化的参考答案和细微的判断标准至关重要——仍然未被充分研究。在本文中,我们构建了ComplexEval,这是一个旨在系统地暴露和量化辅助信息诱导偏差的挑战基准。我们系统地调查并验证了12个基本场景和3个高级场景中先前未探索的6种偏差。关键发现表明:(1)所有评估的模型都表现出对这些偏差的显著敏感性,偏差幅度随任务复杂性而增加;(2)值得注意的是,大型推理模型(LRMs)表现出矛盾的脆弱性。我们的深入分析为提高评估信号的准确性和可验证性提供了关键见解,为更通用和鲁棒的评估模型铺平了道路。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)作为评判者在复杂评估任务中存在的偏差问题。现有方法主要集中在简单场景,忽略了复杂任务中多方面评价标准、非结构化参考答案和细微判断标准带来的挑战。这些因素会导致LLM评判受到辅助信息的影响,产生不准确或有偏见的评估结果。

核心思路:论文的核心思路是构建一个专门的基准测试集ComplexEval,用于系统性地暴露和量化LLM评判中存在的辅助信息诱导偏差。通过设计包含不同类型偏差的测试用例,可以评估LLM在复杂评估环境下的鲁棒性和可靠性。同时,通过分析LLM在不同场景下的表现,可以深入了解其偏差来源和影响因素。

技术框架:ComplexEval基准包含12个基本场景和3个高级场景,涵盖了6种先前未探索的偏差类型。这些场景的设计旨在模拟真实世界中复杂的评估任务,例如需要综合多个信息源、进行细致推理和考虑上下文信息的任务。评估流程包括:1)输入包含辅助信息的测试用例;2)使用LLM进行评判;3)分析评判结果,量化偏差程度。

关键创新:论文的关键创新在于首次系统性地研究了LLM评判在复杂评估任务中存在的辅助信息诱导偏差,并提出了一个专门的基准测试集ComplexEval。通过该基准,可以更全面地评估LLM评判的可靠性和鲁棒性,并为改进评估模型提供指导。此外,论文还揭示了大型推理模型(LRMs)在复杂评估中表现出矛盾的脆弱性,这一发现对LLM评判的未来发展具有重要意义。

关键设计:ComplexEval基准的关键设计在于其对不同类型偏差的系统性覆盖。例如,某些场景可能包含误导性的上下文信息,而另一些场景可能需要LLM根据非结构化的参考答案进行判断。此外,基准还考虑了任务的复杂性,通过设计不同难度的场景来评估LLM在不同水平下的表现。具体的参数设置、损失函数和网络结构等技术细节取决于所使用的LLM模型,但ComplexEval基准提供了一个通用的评估框架,可以应用于各种不同的LLM。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所有评估的LLM都表现出对辅助信息诱导偏差的显著敏感性,且偏差幅度随任务复杂性增加。更令人惊讶的是,大型推理模型(LRMs)在复杂评估中表现出矛盾的脆弱性,表明其在处理复杂信息时可能存在潜在问题。这些发现强调了在复杂评估任务中谨慎使用LLM评判的重要性。

🎯 应用场景

该研究成果可应用于各种需要LLM进行评估的场景,例如自动代码评审、论文评审、产品质量评估等。通过识别和减轻LLM评判中的偏差,可以提高评估结果的准确性和公平性,从而提升决策质量。未来的研究可以探索更有效的偏差缓解方法,并开发更鲁棒的评估模型。

📄 摘要(原文)

As large language models (LLMs) grow more capable, they face increasingly diverse and complex tasks, making reliable evaluation challenging. The paradigm of LLMs as judges has emerged as a scalable solution, yet prior work primarily focuses on simple settings. Their reliability in complex tasks--where multi-faceted rubrics, unstructured reference answers, and nuanced criteria are critical--remains understudied. In this paper, we constructed ComplexEval, a challenge benchmark designed to systematically expose and quantify Auxiliary Information Induced Biases. We systematically investigated and validated 6 previously unexplored biases across 12 basic and 3 advanced scenarios. Key findings reveal: (1) all evaluated models exhibit significant susceptibility to these biases, with bias magnitude scaling with task complexity; (2) notably, Large Reasoning Models (LRMs) show paradoxical vulnerability. Our in-depth analysis offers crucial insights for improving the accuracy and verifiability of evaluation signals, paving the way for more general and robust evaluation models.