GRAIL: Gradient-Reweighted Advantages for Reinforcement Learning with Verifiable Rewards
作者: Tej Deep Pala, Vernon Toh, Soujanya Poria
分类: cs.CL
发布日期: 2026-06-03
💡 一句话要点
提出GRAIL以解决强化学习中奖励分配不均问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 可验证奖励 梯度重加权 逻辑推理 自然语言处理 模型优化 深度学习
📋 核心要点
- 现有方法在奖励分配上存在不足,导致错误推理和无关词汇的更新与有效推理同等强度。
- 本文提出GRAIL,通过梯度激活显著性对标记进行重加权,增强对最终答案敏感的标记的权重。
- 实验结果表明,GRAIL在多个模型上均优于GRPO,准确率平均提高3.60%,Pass@3提高3.05%。
📝 摘要(中文)
随着可验证奖励(如GRPO)在大型语言模型(LLMs)中的应用日益普遍,现有方法通常将一个序列级的优势广播到所有标记,或使用成本高昂的过程奖励模型(PRMs)进行逐步监督。这种均匀的优势分配假设所有标记对最终奖励的贡献相同,导致梯度信号稀释,因为错误推理步骤和填充词的更新强度与有效逻辑推理相同。为了解决这一问题,本文提出了梯度重加权优势(GRAIL),一种内在的逐标记优势重加权方法。GRAIL利用梯度激活显著性对更敏感于最终答案的标记赋予更大的权重。通过对Qwen3、R1-distilled和OctoThinker家族的五个模型进行评估,GRAIL在准确率上平均提高了3.60%,在Pass@3上提高了3.05%,证明了细粒度推理对齐可以在没有过程级监督的情况下实现。
🔬 方法详解
问题定义:本文旨在解决现有强化学习方法中奖励分配不均的问题,尤其是均匀分配导致的梯度信号稀释,影响模型的推理能力。
核心思路:GRAIL通过对每个标记进行梯度重加权,依据其对最终答案的敏感性来调整权重,从而提高有效推理的更新强度。
技术框架:GRAIL的整体架构包括标记的梯度计算、显著性评估和优势重加权三个主要模块,确保每个标记的贡献得到合理反映。
关键创新:GRAIL的核心创新在于引入了梯度激活显著性作为重加权依据,与传统的均匀分配方法相比,能够更精确地捕捉到对最终决策影响较大的标记。
关键设计:在实现过程中,GRAIL设计了特定的损失函数以优化标记权重,并采用了适应性学习率策略,以确保模型在训练过程中能够有效调整各标记的更新强度。
📊 实验亮点
实验结果显示,GRAIL在五个不同模型上均优于GRPO,准确率平均提升3.60%,Pass@3提升3.05%。这些结果表明,GRAIL在细粒度推理对齐方面的有效性,且无需依赖过程级监督,具有较高的实用性。
🎯 应用场景
GRAIL的研究成果在多个领域具有潜在应用价值,尤其是在需要高精度推理的自然语言处理任务中,如问答系统、对话生成和文本推理等。通过提高模型对推理过程的敏感性,GRAIL能够帮助提升大型语言模型的理解和生成能力,推动智能助手和自动化系统的发展。
📄 摘要(原文)
Reinforcement learning with verifiable rewards (e.g. GRPO) is now a common way to improve mathematical reasoning in Large Language Models (LLMs). However, current methods usually broadcast one sequence-level advantage to all tokens, or use costly process reward models (PRMs) for step-level supervision. Uniform advantage distribution assumes that all tokens contribute equally to the final reward. This dilutes the gradient signal, since flawed reasoning steps and filler words are updated as strongly as valid logical inferences. To address this, we introduce Gradient-Reweighted Advantage (GRAIL), an intrinsic token-wise advantage reweighting method. GRAIL uses gradient-activation saliency to place more weight on tokens that are more locally sensitive to the final answer. Evaluations across five models from the Qwen3, R1-distilled and OctoThinker families show that GRAIL consistently outperforms GRPO. GRAIL achieved an average improvement of 3.60% in accuracy and 3.05% in Pass@3, demonstrating that fine-grained reasoning alignment can be achieved without process-level supervision.