Asymmetric On-Policy Distillation: Bridging Exploitation and Imitation at the Token Level

📄 arXiv: 2605.06387v1 📥 PDF

作者: Nan Jia, Haojin Yang, Xing Ma, Jiesong Lian, Shuailiang Zhang, Weipeng Zhang, Ke Zeng, Xunliang Cai, Zequn Sun

分类: cs.LG, cs.AI

发布日期: 2026-05-07


💡 一句话要点

提出非对称On-Policy蒸馏(AOPD),提升数学推理任务中token级别模仿学习效果。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: On-Policy蒸馏 非对称学习 强化学习 模仿学习 数学推理 策略梯度 局部散度最小化

📋 核心要点

  1. 传统On-Policy蒸馏在优势加权策略梯度上存在缺陷,导致训练不稳定和探索不足。
  2. AOPD通过非对称的方式处理正负优势,用局部散度最小化代替负强化,提升学习效率。
  3. 实验表明,AOPD在数学推理任务上显著优于标准OPD,并能维持策略多样性。

📝 摘要(中文)

On-policy蒸馏(OPD)通过token级别的教师反馈,在自身轨迹上训练学生模型,通常优于off-policy蒸馏和标准强化学习。然而,标准的优势加权策略梯度存在高方差更新、零优势区域梯度消失以及纠正信号不足时的探索瓶颈等结构性弱点。因此,我们提出了非对称On-Policy蒸馏(AOPD),它用非正优势区域的局部散度最小化代替了无效的负强化,同时保留了正强化学习。在数学推理基准上的实验表明,AOPD始终优于标准OPD,在强/弱初始化下分别平均提升4.09/8.34。AOPD还在训练期间保持更高的策略熵,并在顺序工具使用适应期间保持更好的能力。

🔬 方法详解

问题定义:论文旨在解决On-Policy蒸馏(OPD)在数学推理等任务中,由于标准优势加权策略梯度的缺陷而导致的训练不稳定、梯度消失和探索瓶颈问题。现有OPD方法在处理负优势时,负强化信号不足,导致模型难以有效学习和纠正错误。

核心思路:论文的核心思路是采用非对称的方式处理On-Policy蒸馏中的正负优势。具体来说,对于正优势区域,保留标准的强化学习方式,鼓励模型采取正确的行动;对于非正优势区域,则不再进行负强化,而是采用局部散度最小化的方法,引导学生模型的策略向教师模型的策略靠近,从而避免无效的负强化和梯度消失。

技术框架:AOPD的整体框架仍然是On-Policy蒸馏,即学生模型在自身产生的轨迹上进行学习,并接受教师模型的token级别的指导。关键在于损失函数的设计,它由两部分组成:一部分是正优势区域的强化学习损失,另一部分是非正优势区域的局部散度最小化损失。整个训练过程通过交替更新学生模型的策略来优化这个损失函数。

关键创新:AOPD最重要的创新点在于其非对称的处理方式,即区分对待正负优势区域,并针对性地设计不同的学习策略。这种非对称性避免了传统OPD中负强化信号不足和梯度消失的问题,从而提高了学习效率和模型性能。

关键设计:AOPD的关键设计包括:1) 优势函数的计算方式,用于区分正负优势区域;2) 局部散度最小化损失函数的具体形式,例如可以使用KL散度或交叉熵等;3) 两个损失部分的权重系数,用于平衡强化学习和模仿学习的影响;4) 训练过程中的探索策略,例如可以使用ε-greedy或Boltzmann探索等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,AOPD在数学推理基准上显著优于标准OPD,在强初始化和弱初始化下分别平均提升了4.09和8.34。此外,AOPD在训练过程中保持了更高的策略熵,表明其具有更好的探索能力和策略多样性。AOPD还在顺序工具使用适应任务中表现出更好的能力保持。

🎯 应用场景

AOPD具有广泛的应用前景,可以应用于各种需要模仿学习和强化学习相结合的任务中,例如机器人控制、自然语言处理、游戏AI等。特别是在需要复杂推理和决策的任务中,AOPD能够有效地提升模型的学习效率和性能,例如数学推理、代码生成等。

📄 摘要(原文)

On-policy distillation (OPD) trains a student on its own trajectories with token-level teacher feedback and often outperforms off-policy distillation and standard reinforcement learning. However, we find that its standard advantage weighted policy gradient suffers from three structural weaknesses, including high variance updates, vanishing gradients in zero-advantage regions, and exploration bottlenecks when corrective signals are insufficient.We therefore propose Asymmetric On-Policy Distillation (AOPD), which replaces ineffective negative reinforcement with localized divergence minimization in non-positive advantage regions while preserving positive reinforcement learning. Experiments on mathematical reasoning benchmarks show that AOPD consistently outperforms standard OPD, with average gains of 4.09 / 8.34 under strong / weak initialization, respectively. AOPD also maintains higher policy entropy during training and better capability retention during sequential tool-use adaptation.