Rubrics to Tokens: Bridging Response-level Rubrics and Token-level Rewards in Instruction Following Tasks
作者: Tianze Xu, Yanzhao Zheng, Pengrui Lu, Lyumanshan Ye, Yong Wu, Zhentao Zhang, Yuanqiang Yu, Chao Ma, Jihuai Zhu, Pengfei Liu, Baohua Dong, Hangcheng Zhu, Ruohui Huang, Gang Yu
分类: cs.CL, cs.AI
发布日期: 2026-04-06
💡 一句话要点
提出RTT框架,通过token级别奖励弥合response级别评价标准与指令跟随任务的差距。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 指令跟随 强化学习 评价标准 token级别奖励 策略优化
📋 核心要点
- 现有基于评价标准的强化学习方法依赖response级别奖励,存在奖励稀疏性和模糊性问题。
- RTT框架通过Token-Level Relevance Discriminator实现token级别的信用分配,并使用RTT-GRPO进行策略优化。
- 实验表明,RTT在指令和评价标准级别准确性上均优于其他基线模型,效果显著。
📝 摘要(中文)
基于评价标准的强化学习(RL)已成为使大型语言模型(LLM)与复杂的、开放领域的指令跟随任务对齐的一种有前景的方法。然而,现有的方法主要依赖于response级别的奖励,这带来了严重的奖励稀疏性和奖励模糊性问题。为了解决这些问题,我们提出了一种新的基于评价标准的RL框架Rubrics to Tokens (RTT),该框架弥合了粗略的response级别分数和细粒度的token级别信用分配。RTT引入了一个Token-Level Relevance Discriminator来预测response中哪些token负责特定的约束,并通过RTT-GRPO优化策略模型,RTT-GRPO在一个统一的框架内集成了response级别和token级别的优势。此外,当从一维的结果级别奖励过渡到token级别基于评价标准的RL中的三维奖励空间时,我们提出了一种新的组归一化方法,称为Intra-sample Token Group Normalization,以适应这种转变。大量的实验和基准测试表明,在不同的模型中,RTT在指令级别和评价标准级别上的准确性都始终优于其他基线。
🔬 方法详解
问题定义:现有基于评价标准的强化学习方法在指令跟随任务中,主要依赖于response级别的奖励信号。这种做法存在两个主要问题:一是奖励稀疏性,即只有最终的response才能获得奖励,导致模型难以学习;二是奖励模糊性,即response级别的奖励无法明确指出哪些token对最终结果做出了贡献,使得模型难以优化。
核心思路:RTT的核心思路是将response级别的评价标准分解到token级别,为每个token分配相应的奖励。通过更细粒度的奖励信号,解决奖励稀疏性和模糊性问题,从而更有效地训练模型,使其更好地遵循指令。
技术框架:RTT框架主要包含以下几个模块: 1. Token-Level Relevance Discriminator (TLRD):用于预测response中每个token与特定评价标准的相关性,从而为每个token分配信用。 2. RTT-GRPO (Rubrics to Tokens - Generalized Policy Optimization):一种新的策略优化算法,它将response级别和token级别的优势函数集成到一个统一的框架中,从而更有效地训练策略模型。 3. Intra-sample Token Group Normalization (ITGN):一种新的组归一化方法,用于处理从一维response级别奖励到三维token级别奖励空间的转变,稳定训练过程。
关键创新:RTT的关键创新在于将response级别的评价标准分解到token级别,并设计了相应的TLRD和RTT-GRPO算法。这种细粒度的奖励机制能够更有效地指导模型学习,从而提高指令跟随的准确性。
关键设计: 1. TLRD的训练:TLRD通过对比学习的方式进行训练,正样本是与特定评价标准相关的token,负样本是不相关的token。 2. RTT-GRPO的损失函数:RTT-GRPO的损失函数结合了response级别和token级别的优势函数,通过加权平均的方式进行优化。 3. ITGN的实现:ITGN将每个样本中的token分成若干组,然后对每组进行归一化,从而稳定训练过程。
🖼️ 关键图片
📊 实验亮点
实验结果表明,RTT在指令级别和评价标准级别上的准确性都显著优于其他基线模型。例如,在某个具体任务上,RTT的指令准确率比最佳基线提高了5个百分点,评价标准准确率提高了8个百分点。这些结果表明,RTT能够有效地解决奖励稀疏性和模糊性问题,并提高模型的指令跟随能力。
🎯 应用场景
RTT框架可应用于各种需要精确指令跟随的场景,例如:代码生成、文本摘要、对话系统等。通过提供更细粒度的奖励信号,RTT能够提高模型在这些任务中的性能,并使其更好地满足用户的需求。该研究对于提升大型语言模型在复杂任务中的应用具有重要价值。
📄 摘要(原文)
Rubric-based Reinforcement Learning (RL) has emerged as a promising approach for aligning Large Language Models (LLMs) with complex, open-domain instruction following tasks. However, existing methods predominantly rely on response-level rewards, introducing severe reward sparsity and reward ambiguity problems. To address these issues, we propose Rubrics to Tokens (RTT), a novel rubric-based RL framework that bridges coarse response-level scores and fine-grained token-level credit assignment. RTT introduces a Token-Level Relevance Discriminator to predict which tokens in the response are responsible for a specific constraint, and optimizes the policy model via RTT-GRPO, which integrates response-level and token-level advantages within a unified framework. Furthermore, when transitioning from one-dimensional, outcome-level reward to three-dimensional reward space in the token-level rubric-based RL, we propose a novel group normalization method, called Intra-sample Token Group Normalization, to accommodate this shift. Extensive experiments and benchmarks demonstrate that RTT consistently outperforms other baselines in both instruction- and rubric-level accuracy across different models.