Asymmetric On-Policy Distillation: Bridging Exploitation and Imitation at the Token Level

📄 arXiv: 2605.06387v2 📥 PDF

作者: Nan Jia, Haojin Yang, Xing Ma, Jiesong Lian, Shuailiang Zhang, Weipeng Zhang, Ke Zeng, Xunliang Cai, Zequn Sun

分类: cs.LG, cs.AI

发布日期: 2026-05-07 (更新: 2026-05-08)


💡 一句话要点

提出非对称在线策略蒸馏(AOPD)方法,通过令牌级反馈优化解决强化学习中的训练瓶颈

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 在线策略蒸馏 强化学习 策略梯度 模仿学习 大语言模型 数学推理 令牌级反馈

📋 核心要点

  1. 标准在线策略蒸馏在优势加权策略梯度中存在高方差、零优势区域梯度消失及探索受限等结构性缺陷。
  2. 提出非对称在线策略蒸馏(AOPD),通过在非正优势区域引入局部散度最小化,替代无效的负强化信号。
  3. 实验证明AOPD在数学推理任务中显著优于基线,并能有效提升训练过程中的策略熵与模型泛化能力。

📝 摘要(中文)

在线策略蒸馏(OPD)通过利用令牌级教师反馈在学生自身的轨迹上进行训练,通常优于离线策略蒸馏和标准强化学习。然而,研究发现标准的优势加权策略梯度存在三个结构性弱点:更新方差大、零优势区域梯度消失,以及在纠正信号不足时的探索瓶颈。为此,本文提出了非对称在线策略蒸馏(AOPD)。该方法在保持正向强化学习的同时,将非正优势区域的无效负强化替换为局部散度最小化。在数学推理基准测试上的实验表明,AOPD始终优于标准OPD,在强/弱初始化下平均提升分别为4.09和8.34个百分点。此外,AOPD在训练过程中保持了更高的策略熵,并在序列工具使用适配中展现了更好的能力保持性。

🔬 方法详解

问题定义:论文旨在解决在线策略蒸馏(OPD)中策略梯度更新效率低下的问题。现有方法在处理负优势(negative advantage)样本时,往往通过简单的惩罚机制进行更新,这导致了高方差、梯度消失以及在缺乏明确纠正信号时的探索停滞。

核心思路:核心思想是将“强化”与“模仿”进行非对称解耦。对于正优势样本,保留强化学习的优化逻辑;对于非正优势样本,放弃低效的负强化,转而采用局部散度最小化(即模仿学习策略),从而引导模型向教师分布靠拢,而非盲目惩罚。

技术框架:AOPD框架在训练过程中动态评估轨迹的优势值。当优势值为正时,执行标准的策略梯度更新;当优势值为非正时,切换至散度最小化目标函数,通过最小化学生策略与教师策略在当前令牌上的KL散度,实现对教师行为的模仿。

关键创新:最大的创新在于引入了“非对称”机制,将原本统一的策略梯度更新拆分为强化学习(正优势)和模仿学习(非正优势)两个分支。这种设计有效避免了在负反馈中产生的无效梯度,解决了探索瓶颈问题。

关键设计:关键设计在于损失函数的动态切换机制。通过引入一个阈值或基于优势值的条件判断,在非正优势区域应用KL散度约束,确保模型在无法获得正向奖励时,依然能通过模仿教师的分布来维持策略的稳定性与多样性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在数学推理基准测试中,AOPD表现卓越。在强初始化条件下,性能提升4.09%;在弱初始化条件下,性能提升高达8.34%。对比标准OPD,AOPD不仅收敛更稳,且在训练全程保持了更高的策略熵,有效缓解了模型坍塌,并在序列工具使用任务中展现了更强的能力保持能力。

🎯 应用场景

该方法主要应用于大语言模型的推理能力增强,特别是在数学推理、代码生成及复杂逻辑任务中。此外,在需要模型进行序列工具调用(Tool-use)的场景下,AOPD能够有效防止模型在微调过程中出现灾难性遗忘,保持模型在多任务适配中的鲁棒性,具有极高的工业应用价值。

📄 摘要(原文)

On-policy distillation (OPD) trains a student on its own trajectories with token-level teacher feedback and often outperforms off-policy distillation and standard reinforcement learning. However, we find that its standard advantage weighted policy gradient suffers from three structural weaknesses, including high variance updates, vanishing gradients in zero-advantage regions, and exploration bottlenecks when corrective signals are insufficient. We therefore propose Asymmetric On-Policy Distillation (AOPD), which replaces ineffective negative reinforcement with localized divergence minimization in non-positive advantage regions while preserving positive reinforcement learning. Experiments on mathematical reasoning benchmarks show that AOPD consistently outperforms standard OPD, with average gains of 4.09 / 8.34 under strong / weak initialization, respectively. AOPD also maintains higher policy entropy during training and better capability retention during sequential tool-use adaptation.