CompassJudger-2: Towards Generalist Judge Model via Verifiable Rewards
作者: Taolin Zhang, Maosong Cao, Alexander Lam, Songyang Zhang, Kai Chen
分类: cs.CL, cs.AI
发布日期: 2025-07-12
💡 一句话要点
CompassJudger-2:通过可验证奖励迈向通用判别模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型评估 判别模型 可验证奖励 拒绝采样 策略梯度 多领域学习 基准测试
📋 核心要点
- 现有判别模型专业性窄、鲁棒性有限,难以进行全面评估。
- CompassJudger-2通过可验证奖励监督判别任务,引导关键推理,提升判别能力。
- 实验表明,CompassJudger-2在多个基准测试中表现优异,7B模型可媲美更大模型。
📝 摘要(中文)
大语言模型作为判别器在评估其他大语言模型方面日益重要。然而,现有的判别模型存在专业性窄、鲁棒性有限的问题,影响了其综合评估能力。本文提出了CompassJudger-2,一种新型通用判别模型,通过任务驱动、多领域的数据管理策略克服了这些限制。该方法的核心在于使用可验证的奖励来监督判别任务,通过拒绝采样引导内在的关键推理,从而培养鲁棒、通用的判别能力。我们引入了带有边际策略梯度损失的精细化学习目标,以提高性能。实验表明,CompassJudger-2在多个判别和奖励基准测试中取得了优异的结果,我们的7B模型展示了与DeepSeek-V3和Qwen3-235B-A22B等更大模型相比具有竞争力的判别准确性。此外,我们提出了JudgerBenchV2,一个综合性的基准测试,用于评估跨领域的判别准确性和排序一致性,以标准化判别模型的评估。这些贡献推进了鲁棒、可扩展的LLM判别,并建立了新的性能和评估标准。
🔬 方法详解
问题定义:现有的大语言模型判别器(Judge Model)通常在特定领域或任务上表现良好,但在跨领域和复杂推理场景下,其鲁棒性和泛化能力不足。这限制了它们在通用LLM评估中的应用,难以保证评估的公平性和准确性。现有方法缺乏有效的训练策略和评估标准,难以提升判别器的通用性和可靠性。
核心思路:CompassJudger-2的核心思路是通过可验证的奖励信号来指导判别器的训练,使其能够学习到更通用的判别能力。具体来说,利用高质量的多领域数据,并结合拒绝采样和边际策略梯度损失,鼓励模型进行更深入的推理和更准确的判断。通过这种方式,模型能够更好地理解不同任务的内在逻辑,从而提高其在各种场景下的判别性能。
技术框架:CompassJudger-2的整体框架包括以下几个主要模块:1) 多领域数据收集与管理:构建包含各种任务和领域的高质量数据集。2) 可验证奖励生成:设计奖励机制,为判别任务提供明确的指导信号。3) 拒绝采样:通过拒绝低质量的判别结果,引导模型进行更深入的推理。4) 边际策略梯度损失:优化模型的学习目标,提高判别性能。5) JudgerBenchV2基准测试:用于评估模型的跨领域判别准确性和排序一致性。
关键创新:CompassJudger-2的关键创新在于其使用可验证奖励来监督判别任务,并结合拒绝采样和边际策略梯度损失来提高模型的判别能力。与现有方法相比,CompassJudger-2更加注重模型的通用性和鲁棒性,通过多领域数据和精细化的训练策略,使其能够在各种场景下表现出色。此外,JudgerBenchV2基准测试的提出,为判别模型的评估提供了一个更全面、更标准的平台。
关键设计:在数据方面,论文采用了任务驱动、多领域的数据管理策略,确保数据的多样性和质量。在损失函数方面,采用了带有边际的策略梯度损失,鼓励模型做出更自信、更准确的判断。拒绝采样的具体实现方式未知,但其目的是过滤掉低质量的判别结果,从而提高模型的训练效率和性能。模型的具体网络结构未知,但推测使用了Transformer架构。
🖼️ 关键图片
📊 实验亮点
CompassJudger-2在多个判别和奖励基准测试中取得了优异的结果。尤其值得一提的是,其7B模型展示了与DeepSeek-V3和Qwen3-235B-A22B等更大模型相比具有竞争力的判别准确性。此外,JudgerBenchV2基准测试的提出,为判别模型的评估提供了一个更全面、更标准的平台。
🎯 应用场景
CompassJudger-2可应用于大语言模型的自动评估、模型选择、以及模型优化等领域。其通用性和鲁棒性使其能够胜任各种复杂的评估任务,为LLM的开发和应用提供可靠的参考。未来,该技术有望进一步扩展到其他AI模型的评估,推动AI技术的进步。
📄 摘要(原文)
Recently, the role of LLM-as-judge in evaluating large language models has gained prominence. However, current judge models suffer from narrow specialization and limited robustness, undermining their capacity for comprehensive evaluations. In this work, we present CompassJudger-2, a novel generalist judge model that overcomes these limitations via a task-driven, multi-domain data curation strategy. Central to our approach is supervising judgment tasks with verifiable rewards, guiding intrinsic critical reasoning through rejection sampling to foster robust, generalizable judgment capabilities. We introduce a refined learning objective with margin policy gradient loss to enhance performance. Empirically, CompassJudger-2 achieves superior results across multiple judge and reward benchmarks, and our 7B model demonstrates competitive judgment accuracy with significantly larger models like DeepSeek-V3 and Qwen3-235B-A22B. Additionally, we propose JudgerBenchV2, a comprehensive benchmark evaluating cross-domain judgment accuracy and rank consistency to standardize judge model evaluation. These contributions advance robust, scalable LLM judgment and establish new performance and evaluation standards.