Reinforcement Learning via Self-Distillation
作者: Jonas Hübotter, Frederike Lübeck, Lejs Behric, Anton Baumann, Marco Bagatella, Daniel Marta, Ido Hakimi, Idan Shenfeld, Thomas Kleine Buening, Carlos Guestrin, Andreas Krause
分类: cs.LG, cs.AI
发布日期: 2026-01-28
💡 一句话要点
提出自蒸馏策略优化(SDPO),利用反馈信息提升强化学习效果
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 自蒸馏 策略优化 文本反馈 语言模型
📋 核心要点
- 现有RLVR方法仅依赖标量奖励,忽略了环境中丰富的文本反馈信息,导致信用分配困难。
- SDPO将模型自身作为教师,利用反馈信息进行自蒸馏,将token化的反馈转化为密集的学习信号。
- 实验表明,SDPO在科学推理、工具使用和编程等任务上,显著提升了样本效率和最终准确性。
📝 摘要(中文)
大型语言模型越来越多地通过强化学习进行后训练,尤其是在代码和数学等可验证领域。然而,目前使用可验证奖励的强化学习(RLVR)方法仅从每次尝试的标量结果奖励中学习,造成了严重的信用分配瓶颈。许多可验证环境实际上提供了丰富的文本反馈,例如运行时错误或评判评估,解释了尝试失败的原因。我们将此设置形式化为具有丰富反馈的强化学习,并引入自蒸馏策略优化(SDPO),它将token化的反馈转换为密集的学习信号,而无需任何外部教师或显式奖励模型。SDPO将当前模型在反馈条件下的表现视为自教师,并将其反馈感知的下一个token预测提炼回策略中。通过这种方式,SDPO利用模型追溯性地识别自身上下文中错误的能力。在LiveCodeBench v6上的科学推理、工具使用和竞争性编程中,SDPO提高了样本效率和最终准确性,优于强大的RLVR基线。值得注意的是,SDPO还在标准RLVR环境中优于基线,这些环境仅通过使用成功rollout作为失败尝试的隐式反馈来返回标量反馈。最后,在测试时将SDPO应用于单个问题可以加速困难的二元奖励任务的发现,以比best-of-k采样或多轮对话少3倍的尝试次数实现相同的发现概率。
🔬 方法详解
问题定义:现有基于可验证奖励的强化学习(RLVR)方法在处理具有丰富反馈信息的环境时存在瓶颈。这些方法通常只利用标量奖励信号,而忽略了环境中提供的详细文本反馈,例如错误信息或评判结果。这种信息缺失导致信用分配困难,降低了学习效率。
核心思路:SDPO的核心思想是利用模型自身作为“自教师”,通过自蒸馏的方式,将环境提供的丰富文本反馈信息融入到策略学习过程中。模型根据反馈信息调整其行为,并将这种调整后的行为作为目标,指导原始策略的学习。这样,模型就能更好地理解反馈信息,并从中学习如何改进自身策略。
技术框架:SDPO的整体框架包括以下几个主要步骤:1) 模型与环境交互,生成动作序列并接收环境反馈(包括标量奖励和文本反馈);2) 将文本反馈进行token化处理;3) 使用当前策略模型,以token化的反馈信息为条件,预测下一个token;4) 将预测的token分布作为“自教师”的目标,利用KL散度等损失函数,指导原始策略模型的学习。
关键创新:SDPO的关键创新在于它无需外部教师或显式奖励模型,而是利用模型自身的能力来理解和利用环境反馈。通过自蒸馏的方式,将反馈信息转化为密集的学习信号,从而提高了学习效率和性能。这种方法避免了构建复杂奖励模型的需要,并且能够更好地适应具有复杂反馈结构的环境。
关键设计:SDPO的关键设计包括:1) 使用Transformer架构的模型作为策略模型,以便能够处理长序列的文本反馈信息;2) 使用KL散度作为自蒸馏的损失函数,衡量“自教师”和原始策略模型之间的差异;3) 在训练过程中,动态调整自蒸馏的权重,以平衡探索和利用。
🖼️ 关键图片
📊 实验亮点
SDPO在LiveCodeBench v6上的实验结果表明,其在科学推理、工具使用和竞争性编程任务上均优于现有的RLVR基线方法。例如,在某些任务上,SDPO的样本效率提高了数倍,并且最终准确率也得到了显著提升。此外,SDPO在标准RLVR环境中也表现出色,证明了其能够有效地利用成功rollout作为失败尝试的隐式反馈。
🎯 应用场景
SDPO具有广泛的应用前景,可以应用于代码生成、数学推理、机器人控制等领域。在这些领域中,环境通常提供丰富的文本反馈信息,而SDPO能够有效地利用这些信息来提升学习效果。此外,SDPO还可以应用于教育领域,例如自动评估学生的作业并提供个性化的反馈。
📄 摘要(原文)
Large language models are increasingly post-trained with reinforcement learning in verifiable domains such as code and math. Yet, current methods for reinforcement learning with verifiable rewards (RLVR) learn only from a scalar outcome reward per attempt, creating a severe credit-assignment bottleneck. Many verifiable environments actually provide rich textual feedback, such as runtime errors or judge evaluations, that explain why an attempt failed. We formalize this setting as reinforcement learning with rich feedback and introduce Self-Distillation Policy Optimization (SDPO), which converts tokenized feedback into a dense learning signal without any external teacher or explicit reward model. SDPO treats the current model conditioned on feedback as a self-teacher and distills its feedback-informed next-token predictions back into the policy. In this way, SDPO leverages the model's ability to retrospectively identify its own mistakes in-context. Across scientific reasoning, tool use, and competitive programming on LiveCodeBench v6, SDPO improves sample efficiency and final accuracy over strong RLVR baselines. Notably, SDPO also outperforms baselines in standard RLVR environments that only return scalar feedback by using successful rollouts as implicit feedback for failed attempts. Finally, applying SDPO to individual questions at test time accelerates discovery on difficult binary-reward tasks, achieving the same discovery probability as best-of-k sampling or multi-turn conversations with 3x fewer attempts.