Beyond GRPO and On-Policy Distillation: An Empirical Sparse-to-Dense Reward Principle for Language-Model Post-Training
作者: Yuanda Xu, Hejian Sang, Zhengze Zhou, Ran He, Zhipeng Wang, Alborz Geramifard
分类: cs.LG, cs.AI
发布日期: 2026-05-12
💡 一句话要点
提出稀疏到稠密奖励原则,提升语言模型在可验证数学问题上的后训练效果
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 语言模型 后训练 强化学习 知识蒸馏 奖励密度 稀疏奖励 稠密奖励 数学问题求解
📋 核心要点
- 现有方法在标注数据有限的情况下,直接在部署模型上使用数据,忽略了奖励密度对模型训练效率的影响。
- 论文提出稀疏到稠密的奖励原则,即利用稀疏奖励训练教师模型进行探索,再用稠密奖励将知识迁移到学生模型。
- 实验表明,通过稠密桥梁蒸馏的强化学习教师模型,显著优于直接在学生模型上使用GRPO,提升了数学问题解决能力。
📝 摘要(中文)
在标注数据受限的场景下,如何高效利用每个标注样本至关重要。传统方法通常直接在部署模型上使用这些数据,例如运行GRPO。本文认为这种做法效率低下,忽略了奖励密度原则:稀疏序列级奖励应训练擅长探索的模型,而稠密token级教师奖励应用于将行为压缩到更小的模型中。GRPO风格的稀疏强化学习和OPD风格的稠密教师监督并非独立的方案,而是不同的奖励密度机制。分配规则很简单:在上游最强的模型上使用稀缺的标注数据,将其转化为奖励塑造的行为,然后将该行为作为稠密监督传递到下游。在Qwen3和Llama模型上评估了该规则在可验证数学问题上的效果。在固定Qwen3-1.7B部署学生模型大小的情况下,通过稠密桥梁蒸馏的RL改进的8B教师模型优于直接在同一学生模型上运行GRPO,而RL之前的相同教师模型的迁移效果不佳。桥梁至关重要:在任何桥后学生侧稀疏RL之前,教师rollout上的前向KL预热,然后是学生rollout上的OPD,在MATH上始终是最强的,并且为规范的8B/14B教师模型提供了最佳的Stage~3 AIME端点。桥梁还使后来的学生侧稀疏RL有效:在冷启动学生模型上效果较弱的GRPO在桥梁之后将MATH从75.4%提升到78.5%,并且优于匹配的重放控制2.8个百分点。操作原则是避免在准备最不充分的策略上使用稀缺的标注数据:使用稀疏奖励进行教师侧发现,使用稠密迁移进行学生压缩,并且仅在桥梁之后使用学生侧稀疏奖励。
🔬 方法详解
问题定义:论文旨在解决在标注数据有限的情况下,如何更有效地训练语言模型,使其在复杂任务(如数学问题求解)上表现更佳。现有方法,如直接在目标模型上使用GRPO等强化学习方法,效率较低,未能充分利用标注数据,并且忽略了不同阶段模型对奖励密度需求的差异。
核心思路:论文的核心在于提出了一个“稀疏到稠密奖励原则”。该原则认为,在训练初期,应该利用稀疏的序列级奖励来训练一个强大的教师模型,使其具备良好的探索能力。然后,通过稠密的token级奖励,将教师模型的知识迁移到较小的学生模型中,实现知识压缩和泛化能力的提升。最后,在学生模型上进行微调,进一步提升性能。
技术框架:整体框架包含三个主要阶段:1) 教师模型训练阶段:使用稀疏奖励(例如,仅在问题解决成功时给予奖励)训练一个强大的教师模型。2) 知识蒸馏阶段:使用稠密奖励(例如,模仿教师模型的每个token的生成概率)将教师模型的知识迁移到学生模型。这一阶段通常采用OPD(On-Policy Distillation)等方法。3) 学生模型微调阶段:在蒸馏后的学生模型上,再次使用稀疏奖励进行微调,进一步提升其性能。
关键创新:论文的关键创新在于提出了“稀疏到稠密奖励原则”,并将其应用于语言模型的后训练中。与传统方法相比,该原则能够更有效地利用有限的标注数据,提升模型的性能。此外,论文还强调了“桥梁”的重要性,即在学生模型微调之前,先进行稠密的知识蒸馏,这有助于学生模型更好地学习教师模型的知识。
关键设计:在教师模型训练阶段,可以使用GRPO等强化学习算法,并根据任务的特点设计合适的奖励函数。在知识蒸馏阶段,可以使用前向KL散度等损失函数,并采用On-Policy Distillation等方法。在学生模型微调阶段,可以再次使用GRPO等强化学习算法,并调整奖励函数的权重。论文还强调了warmup的重要性,即在知识蒸馏之前,先使用教师模型的rollout数据对学生模型进行预热。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在Qwen3-1.7B学生模型上,通过RL改进的8B教师模型进行稠密蒸馏,优于直接在学生模型上使用GRPO。具体而言,在MATH数据集上,经过稠密桥梁后,GRPO可以将学生模型的性能从75.4%提升到78.5%,超过了基线方法2.8个百分点。此外,论文还发现,在进行学生侧稀疏RL之前,先进行教师rollout上的前向KL预热和学生rollout上的OPD,可以获得最佳的性能。
🎯 应用场景
该研究成果可应用于各种需要利用有限标注数据训练语言模型的场景,例如:特定领域的知识问答、代码生成、数学问题求解等。通过先训练一个强大的教师模型,再将知识迁移到较小的学生模型,可以降低部署成本,并提升模型的泛化能力。该方法在教育、金融、医疗等领域具有广泛的应用前景。
📄 摘要(原文)
In settings where labeled verifiable training data is the binding constraint, each checked example should be allocated carefully. The standard practice is to use this data directly on the model that will be deployed, for example by running GRPO on the deployment student. We argue that this is often an inefficient allocation because it overlooks a reward-density principle: sparse sequence-level reward should train models where exploration is productive, while dense token-level teacher reward should be used where the aim is to compress behavior into a smaller model. In this view, GRPO-style sparse RL and OPD-style dense teacher supervision are not separate recipes; they are different reward-density regimes. The allocation rule is simple: use scarce labeled training data upstream on the strongest model that can turn it into reward-shaped behavior, then transfer that behavior downstream as dense supervision. We evaluate this rule on verifiable math with Qwen3 and Llama models. At fixed Qwen3-1.7B deployment-student size, an RL-improved 8B teacher distilled through the dense bridge outperforms direct GRPO on the same student, while transfer from the same teacher before RL underperforms. The bridge is important: a forward-KL warmup on teacher rollouts followed by OPD on student rollouts is consistently strongest on MATH before any post-bridge student-side sparse RL, and also gives the best pre-Stage~3 AIME endpoints for the canonical 8B/14B teachers. The bridge also makes later student-side sparse RL effective: GRPO that is weak on a cold student lifts MATH from $75.4\%$ to $78.5\%$ after the bridge and outperforms a matched replay control by $2.8$ points. The operational principal is to avoid using scarce labeled data on the least prepared policy: use sparse reward for teacher-side discovery, dense transfer for student compression, and student-side sparse reward only after the bridge.