Rubrics to Tokens: Bridging Response-level Rubrics and Token-level Rewards in Instruction Following Tasks

作者: Tianze Xu, Yanzhao Zheng, Pengrui Lu, Lyumanshan Ye, Yong Wu, Zhentao Zhang, Yuanqiang Yu, Chao Ma, Jihuai Zhu, Pengfei Liu, Baohua Dong, Hangcheng Zhu, Ruohui Huang, Gang Yu

分类: cs.CL, cs.AI

发布日期: 2026-04-06

💡 一句话要点

提出RTT框架，通过token级别奖励弥合response级别评价标准与指令跟随任务的差距。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 指令跟随 强化学习 评价标准 token级别奖励 策略优化

📋 核心要点

现有基于评价标准的强化学习方法依赖response级别奖励，存在奖励稀疏性和模糊性问题。
RTT框架通过Token-Level Relevance Discriminator实现token级别的信用分配，并使用RTT-GRPO进行策略优化。
实验表明，RTT在指令和评价标准级别准确性上均优于其他基线模型，效果显著。

📝 摘要（中文）

基于评价标准的强化学习(RL)已成为使大型语言模型(LLM)与复杂的、开放领域的指令跟随任务对齐的一种有前景的方法。然而，现有的方法主要依赖于response级别的奖励，这带来了严重的奖励稀疏性和奖励模糊性问题。为了解决这些问题，我们提出了一种新的基于评价标准的RL框架Rubrics to Tokens (RTT)，该框架弥合了粗略的response级别分数和细粒度的token级别信用分配。RTT引入了一个Token-Level Relevance Discriminator来预测response中哪些token负责特定的约束，并通过RTT-GRPO优化策略模型，RTT-GRPO在一个统一的框架内集成了response级别和token级别的优势。此外，当从一维的结果级别奖励过渡到token级别基于评价标准的RL中的三维奖励空间时，我们提出了一种新的组归一化方法，称为Intra-sample Token Group Normalization，以适应这种转变。大量的实验和基准测试表明，在不同的模型中，RTT在指令级别和评价标准级别上的准确性都始终优于其他基线。

🔬 方法详解

问题定义：现有基于评价标准的强化学习方法在指令跟随任务中，主要依赖于response级别的奖励信号。这种做法存在两个主要问题：一是奖励稀疏性，即只有最终的response才能获得奖励，导致模型难以学习；二是奖励模糊性，即response级别的奖励无法明确指出哪些token对最终结果做出了贡献，使得模型难以优化。

核心思路：RTT的核心思路是将response级别的评价标准分解到token级别，为每个token分配相应的奖励。通过更细粒度的奖励信号，解决奖励稀疏性和模糊性问题，从而更有效地训练模型，使其更好地遵循指令。

技术框架：RTT框架主要包含以下几个模块： 1. Token-Level Relevance Discriminator (TLRD)：用于预测response中每个token与特定评价标准的相关性，从而为每个token分配信用。 2. RTT-GRPO (Rubrics to Tokens - Generalized Policy Optimization)：一种新的策略优化算法，它将response级别和token级别的优势函数集成到一个统一的框架中，从而更有效地训练策略模型。 3. Intra-sample Token Group Normalization (ITGN)：一种新的组归一化方法，用于处理从一维response级别奖励到三维token级别奖励空间的转变，稳定训练过程。

关键创新：RTT的关键创新在于将response级别的评价标准分解到token级别，并设计了相应的TLRD和RTT-GRPO算法。这种细粒度的奖励机制能够更有效地指导模型学习，从而提高指令跟随的准确性。

关键设计： 1. TLRD的训练：TLRD通过对比学习的方式进行训练，正样本是与特定评价标准相关的token，负样本是不相关的token。 2. RTT-GRPO的损失函数：RTT-GRPO的损失函数结合了response级别和token级别的优势函数，通过加权平均的方式进行优化。 3. ITGN的实现：ITGN将每个样本中的token分成若干组，然后对每组进行归一化，从而稳定训练过程。

🖼️ 关键图片

📊 实验亮点

实验结果表明，RTT在指令级别和评价标准级别上的准确性都显著优于其他基线模型。例如，在某个具体任务上，RTT的指令准确率比最佳基线提高了5个百分点，评价标准准确率提高了8个百分点。这些结果表明，RTT能够有效地解决奖励稀疏性和模糊性问题，并提高模型的指令跟随能力。

🎯 应用场景

RTT框架可应用于各种需要精确指令跟随的场景，例如：代码生成、文本摘要、对话系统等。通过提供更细粒度的奖励信号，RTT能够提高模型在这些任务中的性能，并使其更好地满足用户的需求。该研究对于提升大型语言模型在复杂任务中的应用具有重要价值。

📄 摘要（原文）

Rubric-based Reinforcement Learning (RL) has emerged as a promising approach for aligning Large Language Models (LLMs) with complex, open-domain instruction following tasks. However, existing methods predominantly rely on response-level rewards, introducing severe reward sparsity and reward ambiguity problems. To address these issues, we propose Rubrics to Tokens (RTT), a novel rubric-based RL framework that bridges coarse response-level scores and fine-grained token-level credit assignment. RTT introduces a Token-Level Relevance Discriminator to predict which tokens in the response are responsible for a specific constraint, and optimizes the policy model via RTT-GRPO, which integrates response-level and token-level advantages within a unified framework. Furthermore, when transitioning from one-dimensional, outcome-level reward to three-dimensional reward space in the token-level rubric-based RL, we propose a novel group normalization method, called Intra-sample Token Group Normalization, to accommodate this shift. Extensive experiments and benchmarks demonstrate that RTT consistently outperforms other baselines in both instruction- and rubric-level accuracy across different models.

Rubrics to Tokens: Bridging Response-level Rubrics and Token-level Rewards in Instruction Following Tasks

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理