A Predictive Law for On-Policy Self-Distillation From World Feedback
作者: Tommy He, Jerome Sieber, Matteo Saponati
分类: cs.LG, cs.AI
发布日期: 2026-05-28
💡 一句话要点
提出一种预测性规律,用于从世界反馈中进行On-Policy自蒸馏,提升后训练效率。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: On-Policy自蒸馏 世界反馈 强化学习 后训练 性能预测 线性相关性 模型缩放
📋 核心要点
- 现有强化学习后训练方法依赖标量奖励,限制了可扩展性,而利用更丰富的世界反馈是一个自然的方向。
- 论文提出一种预测性规律,基于初始学生-自教师性能差距,线性预测On-policy自蒸馏的最终性能。
- 实验表明,该线性关系在不同上下文和模型中成立,并可能推广到更大规模的模型,实现更高效的后训练。
📝 摘要(中文)
本文研究了利用更丰富的世界反馈来扩展强化学习后训练的可行性。On-policy自蒸馏(OPSD)是一种很有前景的方法,它使用任意反馈作为学习信号。然而,与GRPO等已建立的方法相比,其可靠性尚不清楚。本文发现OPSD中初始学生-自教师性能差距与最终性能提升之间存在显著且一致的线性相关性。这种关系适用于不同的上下文类型和模型系列,为预测OPSD配置的结果提供了一种有效的预测性规律,而无需运行完整的训练过程。有趣的是,这种线性可预测性适用于模型规模,这表明可能为具有更强上下文学习能力的大型模型提供新的经验缩放规律的基础。本质上,本文的研究结果表明,可以在训练前预测和调整OPSD性能,从而为将世界反馈作为后训练流程的重要组成部分提供了一种原则性方法。
🔬 方法详解
问题定义:论文旨在解决强化学习后训练中,如何更有效地利用世界反馈的问题。现有方法,如GRPO,虽然有效,但缺乏对On-policy自蒸馏(OPSD)这种利用任意反馈作为学习信号的方法的深入理解和可靠性评估。尤其是在实际应用中,如何预判OPSD的训练效果,并进行有效调优,是一个重要的挑战。
核心思路:论文的核心思路是发现并利用OPSD中初始学生-自教师性能差距与最终性能提升之间的线性相关性。这种线性关系提供了一种预测模型训练结果的手段,从而可以在训练前对OPSD进行评估和调优。这种思路的关键在于,它将OPSD的性能预测问题转化为一个简单的线性回归问题,大大降低了计算复杂性。
技术框架:论文的技术框架主要包括以下几个步骤:1)定义OPSD的训练过程,包括学生模型、自教师模型和世界反馈;2)测量初始学生-自教师性能差距,作为预测变量;3)运行完整的OPSD训练过程,获得最终性能提升,作为目标变量;4)通过线性回归分析,建立初始性能差距与最终性能提升之间的线性模型;5)验证该线性模型在不同上下文类型和模型系列中的泛化能力。
关键创新:论文最重要的技术创新点在于发现了OPSD中初始学生-自教师性能差距与最终性能提升之间的线性相关性。这种线性关系为预测OPSD的性能提供了一种简单而有效的方法,从而可以在训练前对OPSD进行评估和调优。此外,论文还验证了该线性关系在不同上下文类型和模型系列中的泛化能力,以及其在更大规模模型中的潜在应用。
关键设计:论文的关键设计包括:1)选择合适的性能指标来衡量学生模型和自教师模型的性能,并计算初始性能差距;2)设计合理的OPSD训练过程,包括学习率、批大小、训练轮数等超参数;3)采用标准的线性回归方法来建立初始性能差距与最终性能提升之间的线性模型;4)使用交叉验证等方法来评估线性模型的泛化能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,初始学生-自教师性能差距与最终性能提升之间存在显著的线性相关性,R平方值在不同上下文和模型中均保持较高水平。该线性关系在模型规模扩大时仍然成立,为开发更大规模模型的经验缩放规律提供了潜在基础。通过该预测性规律,可以在训练前预测和调整OPSD性能,显著提升后训练效率。
🎯 应用场景
该研究成果可应用于各种强化学习后训练场景,尤其是在需要利用复杂世界反馈进行模型优化的任务中。例如,可以用于机器人控制、游戏AI、自然语言处理等领域。通过预测OPSD的性能,可以更高效地选择和调整训练配置,从而降低训练成本,提高模型性能,加速AI应用的落地。
📄 摘要(原文)
Moving beyond simple scalar rewards toward richer world feedback is a natural path to more scalable RL post-training. On-policy self-distillation (OPSD) is a promising recent approach that uses arbitrary feedback as learning signal, yet its reliability compared to established methods, such as GRPO, remains unclear. We identify a strikingly consistent linear correlation between the initial student-self-teacher performance gap and the final performance improvement in OPSD. This relationship holds across context types and model families, providing a powerful predictive law for anticipating the outcome of an OPSD configuration without running the full training procedure. Interestingly, we show that this linear predictability holds with model scale, suggesting a potential basis for new empirical scaling laws on larger models with stronger in-context learning capabilities. In essence, our findings show that OPSD performance can be predicted and tuned before training, offering a principled way to incorporate world feedback as a first-class component of the post-training pipeline.