Think-with-Rubrics: From External Evaluator to Internal Reasoning Guidance

📄 arXiv: 2605.07461v1 📥 PDF

作者: Jiachen Yu, Zhihao Xu, Junjie Wang, Yujiu Yang

分类: cs.CL

发布日期: 2026-05-08


💡 一句话要点

提出Think-with-Rubrics范式,将评分准则从外部评估器转化为大模型的内部推理引导机制。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 指令遵循 推理引导 评分准则 强化学习 联合监督 自然语言生成

📋 核心要点

  1. 现有方法将评分准则仅作为事后评估工具,无法在模型生成过程中提供实时引导,限制了其对复杂推理任务的辅助能力。
  2. 提出Think-with-Rubrics范式,将评分准则生成嵌入推理上下文,使模型在生成答案前先构建评估准则,实现内部化引导。
  3. 实验表明该方法在多个基准测试中平均提升3.87分,证明了联合监督机制在提升准则质量与回答一致性方面的显著优势。

📝 摘要(中文)

评分准则(Rubrics)常用于评估不可验证的开放式任务,近期研究将其引入强化学习的奖励系统。然而,现有框架通常将评分准则视为与模型推理过程脱节的外部评估器,导致其仅能用于事后度量,无法主动引导生成过程。本文提出了Think-with-Rubrics,这是一种针对指令遵循任务的新型范式。该方法将评分准则的生成整合进推理上下文中,将评分准则从独立的评估产物转化为大模型生成的内部引导。在训练阶段,模型按顺序生成评分准则及相应回答,并由训练好的评分准则验证器提供联合监督,评估回答与自生成/标准评分准则之间的一致性。在多个基准测试上的实验表明,Think-with-Rubrics在性能上平均超过了以标准评分准则作为奖励的基线模型3.87分。研究进一步探讨了该机制的有效性,结果显示标准评分准则与自生成评分准则的联合监督分别通过提升准则质量和增强回答的内部一致性,显著改善了模型表现。

🔬 方法详解

问题定义:论文旨在解决大模型在处理开放式指令遵循任务时,缺乏有效推理引导的问题。现有方法将评分准则(Rubrics)作为外部奖励信号,导致准则与推理过程割裂,无法在生成阶段发挥主动约束作用。

核心思路:将评分准则从“事后裁判”转变为“事前蓝图”。通过让模型在生成答案前先生成评分准则,将评估标准内化为推理过程的一部分,从而引导模型生成更符合逻辑和要求的回答。

技术框架:整体流程包含两个阶段:首先是准则生成阶段,模型根据指令生成对应的评分准则;其次是回答生成阶段,模型基于生成的准则产出最终答案。训练过程中引入评分准则验证器(Rubric Verifier),对准则与答案的一致性进行联合监督。

关键创新:核心创新在于将评分准则的生成与推理过程深度耦合。与传统强化学习中仅利用准则计算奖励不同,该方法通过上下文学习(In-context learning)让模型在推理时显式地参考自身生成的准则,从而增强了生成的逻辑性和一致性。

关键设计:采用了双重监督机制:利用标准评分准则(Golden Rubrics)提升模型生成高质量准则的能力,同时利用自生成准则(Self-generated Rubrics)强化回答的内部一致性,通过联合损失函数优化模型在准则生成与任务执行上的协同表现。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果显示,Think-with-Rubrics在多个基准测试中表现优异,平均性能提升3.87分。对比实验证实,该方法不仅优于传统的Rubric-as-Reward基线,且通过联合监督机制,有效提升了自生成准则的质量及模型回答的内部一致性,证明了该范式在复杂任务中的鲁棒性。

🎯 应用场景

该方法适用于需要严格遵循复杂指令的开放式生成任务,如法律文书撰写、学术论文辅助写作、复杂逻辑推理及长文本创作。通过将评估标准内化,该技术能显著提升模型在专业领域任务中的准确性与逻辑严密性,具有广泛的工业应用前景。

📄 摘要(原文)

Rubrics have been extensively utilized for evaluating unverifiable, open-ended tasks, with recent research incorporating them into reward systems for reinforcement learning. However, existing frameworks typically treat rubrics only as external evaluator disjointed from the policy's primary reasoning trace. Such design confines rubrics to post-hoc measurement, leaving them unable to actively guide the model's generation process. In this work, we introduce Think-with-Rubrics, a novel paradigm for instruction following tasks. Think-with-Rubrics integrates rubric generation into the reasoning context, transforming the rubric from an independent artifact into an internal guidance of LLM's generation. During training, LLM sequentially generates a rubric followed by a response, while a trained rubric verifier provides joint supervision by evaluating the consistency between the answer and the self-generated / golden rubrics. Experiments across multiple benchmarks demonstrate that Think-with-Rubrics consistently outperforms the Rubric-as-Reward baseline supervised by golden rubrics by an average of 3.87 points. We have also discussed the mechanism by which Think-with-Rubrics enhances model performance. Experimental results demonstrate that supervision from golden rubrics and self-generated rubrics enhances the performance of Think-with-Rubrics by improving the quality of self-generated rubrics and increasing the internal consistency of responses respectively.