Incentivizing Agentic Reasoning in LLM Judges via Tool-Integrated Reinforcement Learning

作者: Ran Xu, Jingjing Chen, Jiayu Ye, Yu Wu, Jun Yan, Carl Yang, Hongkun Yu

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-10-27

备注: Work in Progress

💡 一句话要点

提出TIR-Judge，利用工具集成强化学习提升LLM评判Agentic推理能力。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: LLM评判 工具集成推理 强化学习 代码执行器 Agentic推理

📋 核心要点

现有LLM评判主要依赖文本推理，难以验证复杂约束或进行精确计算。
TIR-Judge通过集成代码执行器，利用强化学习训练LLM评判，实现更精确的评估。
实验表明，TIR-Judge在多个基准测试中超越了现有方法，甚至无需蒸馏即可达到高性能。

📝 摘要（中文）

大型语言模型（LLMs）被广泛用作评估响应质量的评判，为人工评估提供了一种可扩展的替代方案。然而，大多数LLM评判仅依赖于内在的基于文本的推理，限制了它们验证复杂约束或执行精确计算的能力。受到工具集成推理（TIR）在众多任务中取得成功的启发，我们提出了TIR-Judge，一个端到端的强化学习框架，用于训练集成代码执行器的LLM评判，以进行精确评估。TIR-Judge建立在三个原则之上：（i）跨可验证和不可验证领域的多样化训练，（ii）灵活的评判格式（逐点、成对、列表），以及（iii）直接从初始模型引导的迭代强化学习，无需蒸馏。在七个公共基准测试中，TIR-Judge超越了强大的基于推理的评判，最高提升6.4%（逐点）和7.7%（成对），并实现了与Claude-Opus-4相当的列表性能，尽管只有80亿参数。值得注意的是，TIR-Judge-Zero——完全在没有蒸馏评判轨迹的情况下训练，与蒸馏变体的性能相匹配，表明工具增强的评判可以通过迭代强化学习自我进化。

🔬 方法详解

问题定义：现有的大型语言模型评判主要依赖于文本推理，在面对需要精确计算或验证复杂约束的任务时表现不足。例如，判断一个数学问题的答案是否正确，或者验证一段代码是否符合特定的安全规范，这些都需要超出纯文本推理的能力。现有方法的痛点在于缺乏外部工具的辅助，无法进行精确的计算和验证。

核心思路：TIR-Judge的核心思路是为LLM评判配备一个代码执行器，使其能够通过执行代码来验证答案或约束条件。通过强化学习，训练LLM评判学会如何有效地利用这个工具，从而提高其评判的准确性和可靠性。这种方法借鉴了工具集成推理（TIR）的思想，将LLM的推理能力与外部工具的执行能力相结合。

技术框架：TIR-Judge的整体框架是一个端到端的强化学习流程。首先，使用一个初始的LLM作为评判模型。然后，通过与环境交互（即评估不同的响应），收集训练数据。环境会提供奖励信号，奖励信号基于代码执行器的结果。例如，如果LLM评判正确地判断了一个数学问题的答案，那么就会获得正向奖励。利用这些数据，使用强化学习算法（例如，策略梯度算法）来更新LLM评判的参数。这个过程是迭代进行的，LLM评判会不断地学习和改进。框架支持多种评判格式，包括逐点、成对和列表。

关键创新：TIR-Judge最重要的创新点在于它能够通过迭代强化学习，从一个初始的LLM评判自我进化成一个高性能的工具增强评判，而无需依赖于蒸馏训练。TIR-Judge-Zero的实验结果表明，即使完全没有蒸馏的评判轨迹，也可以达到与蒸馏变体相当的性能。这表明工具增强的评判具有很强的自我学习能力。与现有方法的本质区别在于，TIR-Judge不仅仅是简单地将LLM与工具结合，而是通过强化学习来优化LLM对工具的使用，使其能够更有效地利用工具来提高评判的准确性。

关键设计：TIR-Judge的关键设计包括：(1) 多样化的训练数据，涵盖可验证和不可验证的领域，以提高模型的泛化能力。(2) 灵活的评判格式，支持逐点、成对和列表等不同的评估方式，以适应不同的任务需求。(3) 迭代强化学习算法，直接从初始模型引导，无需蒸馏，降低了训练成本。(4) 奖励函数的设计，需要仔细考虑如何奖励LLM评判的正确行为，并惩罚错误行为，以引导模型学习正确的评判策略。具体的参数设置和网络结构取决于所使用的LLM和强化学习算法，论文中可能没有详细说明。

🖼️ 关键图片

📊 实验亮点

TIR-Judge在七个公共基准测试中，超越了强大的基于推理的评判，最高提升6.4%（逐点）和7.7%（成对）。TIR-Judge实现了与Claude-Opus-4相当的列表性能，尽管只有80亿参数。更重要的是，TIR-Judge-Zero在没有蒸馏评判轨迹的情况下，与蒸馏变体的性能相匹配，证明了工具增强评判的自我进化能力。

🎯 应用场景

TIR-Judge具有广泛的应用前景，可以用于自动评估各种LLM生成的文本，例如代码、数学问题解答、创意写作等。它可以提高评估的效率和准确性，减少对人工评估的依赖。此外，TIR-Judge还可以用于训练更好的LLM，通过提供更准确的反馈信号来指导LLM的学习。未来，该技术有望应用于教育、科研、内容审核等多个领域。

📄 摘要（原文）

Large Language Models (LLMs) are widely used as judges to evaluate response quality, providing a scalable alternative to human evaluation. However, most LLM judges operate solely on intrinsic text-based reasoning, limiting their ability to verify complex constraints or perform accurate computation. Motivated by the success of tool-integrated reasoning (TIR) in numerous tasks, we propose TIR-Judge, an end-to-end RL framework for training LLM judges that integrates a code executor for precise evaluation. TIR-Judge is built on three principles: (i) diverse training across verifiable and non-verifiable domains, (ii) flexible judgment formats (pointwise, pairwise, listwise), and (iii) iterative RL that bootstraps directly from the initial model without distillation. On seven public benchmarks, TIR-Judge surpasses strong reasoning-based judges by up to 6.4% (pointwise) and 7.7% (pairwise), and achieves listwise performance comparable to Claude-Opus-4 despite having only 8B parameters. Remarkably, TIR-Judge-Zero - trained entirely without distilled judge trajectories, matches the performance of distilled variants, demonstrating that tool-augmented judges can self-evolve through iterative reinforcement learning.

Incentivizing Agentic Reasoning in LLM Judges via Tool-Integrated Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理