SG-OPD: Sign-Gated On-Policy Distillation via Sign-Consistency Gating and Phased Teacher Sampling
作者: Haoran Xu, Hongyu Wang, Yifei Gao, Jiaze Li, Xiaofeng Zhang, Xiaosong Yuan
分类: cs.CL, cs.LG
发布日期: 2026-06-08
💡 一句话要点
提出SG-OPD以解决现有OPD方法的有效性问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 策略蒸馏 信号门控 教师采样 数学推理 强化学习
📋 核心要点
- 现有的策略蒸馏方法在实际应用中面临轨迹级对齐和教师偏好可靠性不足的问题,限制了其有效性。
- 本文提出SG-OPD,通过信号门控机制和分阶段教师采样,增强了教师的信任信号,从而提高了蒸馏过程的可靠性。
- 实验结果显示,SG-OPD在数学推理基准上显著优于标准OPD,分别在样本和问题级别上提升了1.98和7.50的性能。
📝 摘要(中文)
在策略蒸馏(OPD)中,学生通过自身轨迹接受来自更强教师的密集监督,通常优于离策略蒸馏和标准强化学习。然而,现有方法的有效性依赖于两个常常失效的假设:学生与教师之间的轨迹级对齐,以及教师偏好的均匀可靠性。为此,本文提出了基于信号门控的策略蒸馏(SG-OPD),利用二元验证器作为教师的信任信号,采用分阶段教师采样和信号一致性门控来优化蒸馏过程。实验结果表明,SG-OPD在数学推理基准测试中表现优异,样本和问题级别的平均提升分别为1.98和7.50。
🔬 方法详解
问题定义:本文旨在解决现有策略蒸馏方法在实际应用中对轨迹级对齐和教师偏好可靠性假设的依赖性问题,这些假设常常在复杂环境中失效,导致蒸馏效果不佳。
核心思路:SG-OPD通过引入二元验证器作为信任信号,采用分阶段教师采样和信号一致性门控,旨在提升教师偏好的可靠性,从而优化学生的学习过程。
技术框架:SG-OPD的整体架构包括两个主要模块:分阶段教师采样和信号一致性门控。前者在冷启动阶段引入经过验证的教师轨迹,后者则在教师与验证器一致的情况下进行蒸馏更新。
关键创新:SG-OPD的核心创新在于引入信号一致性门控机制,使得蒸馏过程能够根据教师与验证器的一致性动态调整,从而提高了蒸馏的有效性和可靠性。
关键设计:在设计中,验证器的选择和信号一致性门控的实现是关键,损失函数的设计也考虑了教师与验证器之间的一致性,以确保蒸馏过程的有效性。具体的参数设置和网络结构细节在实验部分进行了详细说明。
🖼️ 关键图片
📊 实验亮点
在数学推理基准测试中,SG-OPD相较于标准OPD表现出显著的性能提升,样本级别平均提升1.98,问题级别平均提升7.50,展示了其在复杂任务中的有效性和优势。
🎯 应用场景
SG-OPD的研究成果在多个领域具有潜在应用价值,尤其是在需要高效学习和决策的复杂环境中,如自动驾驶、机器人控制和智能推荐系统等。通过提高教师信号的可靠性,SG-OPD能够帮助学生模型更好地学习,从而提升整体系统的性能和稳定性。
📄 摘要(原文)
On-policy distillation (OPD) trains a student on its own trajectories with dense per-token supervision from a stronger teacher, and often outperforms off-policy distillation and standard reinforcement learning. However, we find that its effectiveness implicitly relies on two assumptions that frequently break in practice: trajectory-level alignment between the student and the teacher, and uniform token-level reliability of the teacher's preferences. We therefore propose Sign-Gated On-Policy Distillation (SG-OPD), which uses a binary verifier as a trust signal for the teacher at two complementary granularities: phased teacher sampling mixes in verifier-endorsed teacher rollouts at cold-start, and a sign-consistency gate extrapolates the distillation update on tokens where the teacher agrees with the verifier-correct direction and interpolates it where it disagrees. Experiments on competition-level mathematical reasoning benchmarks show that SG-OPD consistently outperforms standard OPD, with average gains of 1.98 and 7.50 at the per-sample and per-question levels, respectively.