Incentivizing Agentic Reasoning in LLM Judges via Tool-Integrated Reinforcement Learning
作者: Ran Xu, Jingjing Chen, Jiayu Ye, Yu Wu, Jun Yan, Carl Yang, Hongkun Yu
分类: cs.CL, cs.AI, cs.LG
发布日期: 2025-10-27
备注: Work in Progress
💡 一句话要点
提出TIR-Judge,利用工具集成强化学习提升LLM评判Agentic推理能力。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM评判 工具集成推理 强化学习 代码执行器 Agentic推理
📋 核心要点
- 现有LLM评判主要依赖文本推理,难以验证复杂约束或进行精确计算。
- TIR-Judge通过集成代码执行器,利用强化学习训练LLM评判,实现更精确的评估。
- 实验表明,TIR-Judge在多个基准测试中超越了现有方法,甚至无需蒸馏即可达到高性能。
📝 摘要(中文)
大型语言模型(LLMs)被广泛用作评估响应质量的评判,为人工评估提供了一种可扩展的替代方案。然而,大多数LLM评判仅依赖于内在的基于文本的推理,限制了它们验证复杂约束或执行精确计算的能力。受到工具集成推理(TIR)在众多任务中取得成功的启发,我们提出了TIR-Judge,一个端到端的强化学习框架,用于训练集成代码执行器的LLM评判,以进行精确评估。TIR-Judge建立在三个原则之上:(i)跨可验证和不可验证领域的多样化训练,(ii)灵活的评判格式(逐点、成对、列表),以及(iii)直接从初始模型引导的迭代强化学习,无需蒸馏。在七个公共基准测试中,TIR-Judge超越了强大的基于推理的评判,最高提升6.4%(逐点)和7.7%(成对),并实现了与Claude-Opus-4相当的列表性能,尽管只有80亿参数。值得注意的是,TIR-Judge-Zero——完全在没有蒸馏评判轨迹的情况下训练,与蒸馏变体的性能相匹配,表明工具增强的评判可以通过迭代强化学习自我进化。
🔬 方法详解
问题定义:现有的大型语言模型评判主要依赖于文本推理,在面对需要精确计算或验证复杂约束的任务时表现不足。例如,判断一个数学问题的答案是否正确,或者验证一段代码是否符合特定的安全规范,这些都需要超出纯文本推理的能力。现有方法的痛点在于缺乏外部工具的辅助,无法进行精确的计算和验证。
核心思路:TIR-Judge的核心思路是为LLM评判配备一个代码执行器,使其能够通过执行代码来验证答案或约束条件。通过强化学习,训练LLM评判学会如何有效地利用这个工具,从而提高其评判的准确性和可靠性。这种方法借鉴了工具集成推理(TIR)的思想,将LLM的推理能力与外部工具的执行能力相结合。
技术框架:TIR-Judge的整体框架是一个端到端的强化学习流程。首先,使用一个初始的LLM作为评判模型。然后,通过与环境交互(即评估不同的响应),收集训练数据。环境会提供奖励信号,奖励信号基于代码执行器的结果。例如,如果LLM评判正确地判断了一个数学问题的答案,那么就会获得正向奖励。利用这些数据,使用强化学习算法(例如,策略梯度算法)来更新LLM评判的参数。这个过程是迭代进行的,LLM评判会不断地学习和改进。框架支持多种评判格式,包括逐点、成对和列表。
关键创新:TIR-Judge最重要的创新点在于它能够通过迭代强化学习,从一个初始的LLM评判自我进化成一个高性能的工具增强评判,而无需依赖于蒸馏训练。TIR-Judge-Zero的实验结果表明,即使完全没有蒸馏的评判轨迹,也可以达到与蒸馏变体相当的性能。这表明工具增强的评判具有很强的自我学习能力。与现有方法的本质区别在于,TIR-Judge不仅仅是简单地将LLM与工具结合,而是通过强化学习来优化LLM对工具的使用,使其能够更有效地利用工具来提高评判的准确性。
关键设计:TIR-Judge的关键设计包括:(1) 多样化的训练数据,涵盖可验证和不可验证的领域,以提高模型的泛化能力。(2) 灵活的评判格式,支持逐点、成对和列表等不同的评估方式,以适应不同的任务需求。(3) 迭代强化学习算法,直接从初始模型引导,无需蒸馏,降低了训练成本。(4) 奖励函数的设计,需要仔细考虑如何奖励LLM评判的正确行为,并惩罚错误行为,以引导模型学习正确的评判策略。具体的参数设置和网络结构取决于所使用的LLM和强化学习算法,论文中可能没有详细说明。
🖼️ 关键图片
📊 实验亮点
TIR-Judge在七个公共基准测试中,超越了强大的基于推理的评判,最高提升6.4%(逐点)和7.7%(成对)。TIR-Judge实现了与Claude-Opus-4相当的列表性能,尽管只有80亿参数。更重要的是,TIR-Judge-Zero在没有蒸馏评判轨迹的情况下,与蒸馏变体的性能相匹配,证明了工具增强评判的自我进化能力。
🎯 应用场景
TIR-Judge具有广泛的应用前景,可以用于自动评估各种LLM生成的文本,例如代码、数学问题解答、创意写作等。它可以提高评估的效率和准确性,减少对人工评估的依赖。此外,TIR-Judge还可以用于训练更好的LLM,通过提供更准确的反馈信号来指导LLM的学习。未来,该技术有望应用于教育、科研、内容审核等多个领域。
📄 摘要(原文)
Large Language Models (LLMs) are widely used as judges to evaluate response quality, providing a scalable alternative to human evaluation. However, most LLM judges operate solely on intrinsic text-based reasoning, limiting their ability to verify complex constraints or perform accurate computation. Motivated by the success of tool-integrated reasoning (TIR) in numerous tasks, we propose TIR-Judge, an end-to-end RL framework for training LLM judges that integrates a code executor for precise evaluation. TIR-Judge is built on three principles: (i) diverse training across verifiable and non-verifiable domains, (ii) flexible judgment formats (pointwise, pairwise, listwise), and (iii) iterative RL that bootstraps directly from the initial model without distillation. On seven public benchmarks, TIR-Judge surpasses strong reasoning-based judges by up to 6.4% (pointwise) and 7.7% (pairwise), and achieves listwise performance comparable to Claude-Opus-4 despite having only 8B parameters. Remarkably, TIR-Judge-Zero - trained entirely without distilled judge trajectories, matches the performance of distilled variants, demonstrating that tool-augmented judges can self-evolve through iterative reinforcement learning.