J4R: Learning to Judge with Equivalent Initial State Group Relative Policy Optimization

作者: Austin Xu, Yilun Zhou, Xuan-Phi Nguyen, Caiming Xiong, Shafiq Joty

分类: cs.CL, cs.AI

发布日期: 2025-05-19 (更新: 2025-06-18)

备注: 25 pages, 4 figures, 6 tables. Updated with code and benchmark

💡 一句话要点

提出EIS-GRPO算法，训练J4R模型，提升LLM在推理场景下的自动评估能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 自动评估 强化学习 推理能力 位置偏差

📋 核心要点

现有LLM-as-judge模型在推理密集型任务中表现不足，无法有效评估复杂内容。
提出EIS-GRPO算法，通过强化学习训练judge模型，增强其对位置偏差的鲁棒性。
构建ReasoningJudgeBench基准，并训练了J4R模型，显著提升了推理评估性能。

📝 摘要（中文）

为了跟上大型语言模型（LLM）快速发展的步伐，模型输出评估已从耗时的人工评估转向自动评估，即由LLM自身来评估和批判其他模型的输出。LLM-as-judge模型擅长评估相对简单的领域，如聊天质量，但在推理密集型领域表现不佳，因为这些领域的模型响应包含更实质性和更具挑战性的内容。为了弥补现有judge模型的不足，我们探索使用强化学习（RL）训练judge模型。我们做出了三个关键贡献：（1）我们提出了等价初始状态组相对策略优化（EIS-GRPO）算法，使我们能够训练judge模型，使其对更复杂的评估环境中出现的位置偏差具有鲁棒性。（2）我们引入了ReasoningJudgeBench，这是一个评估judge模型在先前工作未涵盖的各种推理设置中的基准。（3）我们训练了Judge for Reasoning（J4R），一个使用EIS-GRPO训练的7B judge模型，其性能优于GPT-4o和次优的小型judge模型，分别提升了6.7%和9%，在JudgeBench和ReasoningJudgeBench上达到或超过了使用GRPO训练的更大模型的性能。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）在推理密集型任务中自动评估其他模型输出时表现不佳的问题。现有的LLM-as-judge模型在处理包含复杂推理内容的响应时，容易受到位置偏差的影响，导致评估结果不准确。此外，缺乏专门针对推理场景的评估基准。

核心思路：论文的核心思路是利用强化学习（RL）训练judge模型，使其能够更准确地评估推理任务中的模型输出。通过引入等价初始状态组相对策略优化（EIS-GRPO）算法，增强judge模型对位置偏差的鲁棒性。同时，构建新的推理评估基准ReasoningJudgeBench，为judge模型的训练和评估提供更具挑战性的环境。

技术框架：整体框架包括以下几个主要阶段：首先，收集用于训练judge模型的数据，包括模型生成的响应和相应的推理任务。然后，使用EIS-GRPO算法对judge模型进行强化学习训练，目标是最大化judge模型对高质量响应的奖励，同时最小化对低质量响应的奖励。最后，在JudgeBench和ReasoningJudgeBench基准上评估训练后的judge模型，并与其他judge模型进行比较。

关键创新：最重要的技术创新点是EIS-GRPO算法。该算法通过将等价的初始状态分组，并使用相对策略优化，来减少judge模型对位置偏差的敏感性。与传统的GRPO算法相比，EIS-GRPO能够更好地处理复杂的评估环境，提高judge模型的评估准确性。

关键设计：J4R模型是一个7B参数的judge模型，使用EIS-GRPO算法进行训练。训练过程中，使用了精心设计的奖励函数，以鼓励judge模型对高质量响应给予更高的奖励，并对低质量响应给予更低的奖励。此外，还使用了数据增强技术，以增加训练数据的多样性，提高judge模型的泛化能力。具体参数设置和网络结构细节未在摘要中详细说明。

🖼️ 关键图片

📊 实验亮点

J4R模型在ReasoningJudgeBench基准上取得了显著的性能提升，超越了GPT-4o和次优的小型judge模型，分别提升了6.7%和9%。同时，J4R模型在JudgeBench基准上的表现也与使用GRPO训练的更大模型相当，表明EIS-GRPO算法能够有效地提高judge模型的评估能力。

🎯 应用场景

该研究成果可应用于各种需要自动评估LLM输出的场景，例如模型开发、性能测试和在线服务质量监控。通过提高自动评估的准确性，可以加速LLM的开发迭代，降低人工评估的成本，并提升在线服务的用户体验。未来，该技术还可能扩展到其他需要复杂推理能力的AI系统评估。

📄 摘要（原文）

To keep pace with the increasing pace of large language models (LLM) development, model output evaluation has transitioned away from time-consuming human evaluation to automatic evaluation, where LLMs themselves are tasked with assessing and critiquing other model outputs. LLM-as-judge models are a class of generative evaluators that excel in evaluating relatively simple domains, like chat quality, but struggle in reasoning intensive domains where model responses contain more substantive and challenging content. To remedy existing judge shortcomings, we explore training judges with reinforcement learning (RL). We make three key contributions: (1) We propose the Equivalent Initial State Group Relative Policy Optimization (EIS-GRPO) algorithm, which allows us to train our judge to be robust to positional biases that arise in more complex evaluation settings. (2) We introduce ReasoningJudgeBench, a benchmark that evaluates judges in diverse reasoning settings not covered by prior work. (3) We train Judge for Reasoning (J4R), a 7B judge trained with EIS-GRPO that outperforms GPT-4o and the next best small judge by 6.7% and 9%, matching or exceeding the performance of larger GRPO-trained judges on both JudgeBench and ReasoningJudgeBench.

J4R: Learning to Judge with Equivalent Initial State Group Relative Policy Optimization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理