Asymmetric On-Policy Distillation: Bridging Exploitation and Imitation at the Token Level

作者: Nan Jia, Haojin Yang, Xing Ma, Jiesong Lian, Shuailiang Zhang, Weipeng Zhang, Ke Zeng, Xunliang Cai, Zequn Sun

分类: cs.LG, cs.AI

发布日期: 2026-05-07

💡 一句话要点

提出非对称On-Policy蒸馏(AOPD)，提升数学推理任务中token级别模仿学习效果。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: On-Policy蒸馏 非对称学习 强化学习 模仿学习 数学推理 策略梯度 局部散度最小化

📋 核心要点

传统On-Policy蒸馏在优势加权策略梯度上存在缺陷，导致训练不稳定和探索不足。
AOPD通过非对称的方式处理正负优势，用局部散度最小化代替负强化，提升学习效率。
实验表明，AOPD在数学推理任务上显著优于标准OPD，并能维持策略多样性。

📝 摘要（中文）

On-policy蒸馏(OPD)通过token级别的教师反馈，在自身轨迹上训练学生模型，通常优于off-policy蒸馏和标准强化学习。然而，标准的优势加权策略梯度存在高方差更新、零优势区域梯度消失以及纠正信号不足时的探索瓶颈等结构性弱点。因此，我们提出了非对称On-Policy蒸馏(AOPD)，它用非正优势区域的局部散度最小化代替了无效的负强化，同时保留了正强化学习。在数学推理基准上的实验表明，AOPD始终优于标准OPD，在强/弱初始化下分别平均提升4.09/8.34。AOPD还在训练期间保持更高的策略熵，并在顺序工具使用适应期间保持更好的能力。

🔬 方法详解

问题定义：论文旨在解决On-Policy蒸馏（OPD）在数学推理等任务中，由于标准优势加权策略梯度的缺陷而导致的训练不稳定、梯度消失和探索瓶颈问题。现有OPD方法在处理负优势时，负强化信号不足，导致模型难以有效学习和纠正错误。

核心思路：论文的核心思路是采用非对称的方式处理On-Policy蒸馏中的正负优势。具体来说，对于正优势区域，保留标准的强化学习方式，鼓励模型采取正确的行动；对于非正优势区域，则不再进行负强化，而是采用局部散度最小化的方法，引导学生模型的策略向教师模型的策略靠近，从而避免无效的负强化和梯度消失。

技术框架：AOPD的整体框架仍然是On-Policy蒸馏，即学生模型在自身产生的轨迹上进行学习，并接受教师模型的token级别的指导。关键在于损失函数的设计，它由两部分组成：一部分是正优势区域的强化学习损失，另一部分是非正优势区域的局部散度最小化损失。整个训练过程通过交替更新学生模型的策略来优化这个损失函数。

关键创新：AOPD最重要的创新点在于其非对称的处理方式，即区分对待正负优势区域，并针对性地设计不同的学习策略。这种非对称性避免了传统OPD中负强化信号不足和梯度消失的问题，从而提高了学习效率和模型性能。

关键设计：AOPD的关键设计包括：1) 优势函数的计算方式，用于区分正负优势区域；2) 局部散度最小化损失函数的具体形式，例如可以使用KL散度或交叉熵等；3) 两个损失部分的权重系数，用于平衡强化学习和模仿学习的影响；4) 训练过程中的探索策略，例如可以使用ε-greedy或Boltzmann探索等。

🖼️ 关键图片

📊 实验亮点

实验结果表明，AOPD在数学推理基准上显著优于标准OPD，在强初始化和弱初始化下分别平均提升了4.09和8.34。此外，AOPD在训练过程中保持了更高的策略熵，表明其具有更好的探索能力和策略多样性。AOPD还在顺序工具使用适应任务中表现出更好的能力保持。

🎯 应用场景

AOPD具有广泛的应用前景，可以应用于各种需要模仿学习和强化学习相结合的任务中，例如机器人控制、自然语言处理、游戏AI等。特别是在需要复杂推理和决策的任务中，AOPD能够有效地提升模型的学习效率和性能，例如数学推理、代码生成等。

📄 摘要（原文）

On-policy distillation (OPD) trains a student on its own trajectories with token-level teacher feedback and often outperforms off-policy distillation and standard reinforcement learning. However, we find that its standard advantage weighted policy gradient suffers from three structural weaknesses, including high variance updates, vanishing gradients in zero-advantage regions, and exploration bottlenecks when corrective signals are insufficient.We therefore propose Asymmetric On-Policy Distillation (AOPD), which replaces ineffective negative reinforcement with localized divergence minimization in non-positive advantage regions while preserving positive reinforcement learning. Experiments on mathematical reasoning benchmarks show that AOPD consistently outperforms standard OPD, with average gains of 4.09 / 8.34 under strong / weak initialization, respectively. AOPD also maintains higher policy entropy during training and better capability retention during sequential tool-use adaptation.

Asymmetric On-Policy Distillation: Bridging Exploitation and Imitation at the Token Level

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理