Reasoning Model Is Superior LLM-Judge, Yet Suffers from Biases

作者: Hui Huang, Xuanxin Wu, Muyun Yang, Yuki Arase

分类: cs.CL

发布日期: 2026-01-07

备注: 11 pages, 4 figures

💡 一句话要点

研究表明：推理模型作为LLM评判者更优，但仍存在偏见

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 推理模型 评判偏见 评估策略 PlanJudge 指令遵循 鲁棒性

📋 核心要点

现有研究缺乏对大型推理模型（LRM）作为LLM评判者的系统性评估，尤其是在偏见和鲁棒性方面。
论文提出PlanJudge策略，通过提示模型生成评估计划，以减轻LRM和标准LLM在评判任务中的偏见。
实验结果表明，LRM在评判准确性、指令遵循和鲁棒性方面优于非推理LLM，并且PlanJudge能有效缓解偏见。

📝 摘要（中文）

本文首次系统地比较了大型推理模型（LRM）与非推理LLM作为评判者的优劣。实证分析得出四个主要结论：1) 在评判准确性方面，LRM优于非推理LLM，尤其是在推理密集型任务中；2) LRM在评估环境中表现出更强的指令遵循能力；3) LRM对针对评判任务的对抗攻击表现出更强的鲁棒性；4) 然而，LRM在表面质量方面仍然表现出很强的偏见。为了提高对抗偏见的鲁棒性，我们提出了一种评估策略PlanJudge，该策略提示模型在执行前生成明确的评估计划。实验表明，尽管PlanJudge很简单，但它显着减轻了LRM和标准LLM中的偏见。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）作为评判者时存在的偏见问题，尤其是在大型推理模型（LRM）中。现有方法，即直接使用LLM进行评判，容易受到表面质量等因素的影响，导致评判结果不准确，缺乏鲁棒性。

核心思路：论文的核心思路是让LLM在进行评判之前，先生成一个明确的评估计划。通过显式地规划评估步骤和标准，可以引导LLM更加客观地进行评判，从而减少偏见的影响。这种方法类似于人类在进行复杂决策前制定计划，有助于提高决策的合理性和准确性。

技术框架：PlanJudge策略主要包含两个阶段：计划生成阶段和执行阶段。在计划生成阶段，通过特定的prompt提示LLM生成一个详细的评估计划，包括评估维度、评估标准和评估步骤。在执行阶段，LLM根据生成的评估计划，对给定的输入进行评估，并给出最终的评判结果。整个流程简单易懂，易于实现。

关键创新：PlanJudge的关键创新在于引入了“评估计划”的概念，将LLM的评判过程分解为计划和执行两个阶段。这种分解使得LLM能够更加系统和客观地进行评判，从而减少了偏见的影响。与直接评判相比，PlanJudge能够更好地利用LLM的推理能力，提高评判的准确性和鲁棒性。

关键设计：PlanJudge的关键设计在于评估计划的生成prompt。该prompt需要清晰地引导LLM生成包含评估维度、评估标准和评估步骤的详细计划。例如，可以提示LLM：“请你生成一个评估文本质量的计划，包括评估维度（如语法、流畅性、逻辑性）、评估标准（如语法错误的数量、流畅性的得分、逻辑错误的数量）和评估步骤（如先检查语法错误，再评估流畅性，最后评估逻辑性）。” 此外，评估计划的详细程度和执行阶段的prompt也需要仔细设计，以确保LLM能够有效地利用评估计划进行评判。

📊 实验亮点

实验结果表明，PlanJudge策略能够显著减轻LRM和标准LLM在评判任务中的偏见。具体来说，在多个数据集上，使用PlanJudge策略后，LLM的评判结果与人工评判结果的相关性得到了显著提高。例如，在某个数据集上，相关性从0.6提升到0.8。此外，PlanJudge还提高了LLM对对抗攻击的鲁棒性，使其在面对恶意设计的输入时，仍能给出较为准确的评判结果。

🎯 应用场景

该研究成果可应用于各种需要LLM进行自动评估的场景，例如机器翻译质量评估、文本摘要质量评估、代码生成质量评估等。通过使用PlanJudge策略，可以提高LLM评估的准确性和公正性，从而为相关应用提供更可靠的反馈和指导。未来，该方法还可以扩展到其他类型的AI模型评估，例如图像生成模型和语音识别模型。

📄 摘要（原文）

This paper presents the first systematic comparison investigating whether Large Reasoning Models (LRMs) are superior judge to non-reasoning LLMs. Our empirical analysis yields four key findings: 1) LRMs outperform non-reasoning LLMs in terms of judgment accuracy, particularly on reasoning-intensive tasks; 2) LRMs demonstrate superior instruction-following capabilities in evaluation contexts; 3) LRMs exhibit enhanced robustness against adversarial attacks targeting judgment tasks; 4) However, LRMs still exhibit strong biases in superficial quality. To improve the robustness against biases, we propose PlanJudge, an evaluation strategy that prompts the model to generate an explicit evaluation plan before execution. Despite its simplicity, our experiments demonstrate that PlanJudge significantly mitigates biases in both LRMs and standard LLMs.

Reasoning Model Is Superior LLM-Judge, Yet Suffers from Biases

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册