Asymmetric On-Policy Distillation: Bridging Exploitation and Imitation at the Token Level

作者: Nan Jia, Haojin Yang, Xing Ma, Jiesong Lian, Shuailiang Zhang, Weipeng Zhang, Ke Zeng, Xunliang Cai, Zequn Sun

分类: cs.LG, cs.AI

发布日期: 2026-05-07 (更新: 2026-05-08)

💡 一句话要点

提出非对称在线策略蒸馏（AOPD）方法，通过令牌级反馈优化解决强化学习中的训练瓶颈

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 在线策略蒸馏 强化学习 策略梯度 模仿学习 大语言模型 数学推理 令牌级反馈

📋 核心要点

标准在线策略蒸馏在优势加权策略梯度中存在高方差、零优势区域梯度消失及探索受限等结构性缺陷。
提出非对称在线策略蒸馏（AOPD），通过在非正优势区域引入局部散度最小化，替代无效的负强化信号。
实验证明AOPD在数学推理任务中显著优于基线，并能有效提升训练过程中的策略熵与模型泛化能力。

📝 摘要（中文）

在线策略蒸馏（OPD）通过利用令牌级教师反馈在学生自身的轨迹上进行训练，通常优于离线策略蒸馏和标准强化学习。然而，研究发现标准的优势加权策略梯度存在三个结构性弱点：更新方差大、零优势区域梯度消失，以及在纠正信号不足时的探索瓶颈。为此，本文提出了非对称在线策略蒸馏（AOPD）。该方法在保持正向强化学习的同时，将非正优势区域的无效负强化替换为局部散度最小化。在数学推理基准测试上的实验表明，AOPD始终优于标准OPD，在强/弱初始化下平均提升分别为4.09和8.34个百分点。此外，AOPD在训练过程中保持了更高的策略熵，并在序列工具使用适配中展现了更好的能力保持性。

🔬 方法详解

问题定义：论文旨在解决在线策略蒸馏（OPD）中策略梯度更新效率低下的问题。现有方法在处理负优势（negative advantage）样本时，往往通过简单的惩罚机制进行更新，这导致了高方差、梯度消失以及在缺乏明确纠正信号时的探索停滞。

核心思路：核心思想是将“强化”与“模仿”进行非对称解耦。对于正优势样本，保留强化学习的优化逻辑；对于非正优势样本，放弃低效的负强化，转而采用局部散度最小化（即模仿学习策略），从而引导模型向教师分布靠拢，而非盲目惩罚。

技术框架：AOPD框架在训练过程中动态评估轨迹的优势值。当优势值为正时，执行标准的策略梯度更新；当优势值为非正时，切换至散度最小化目标函数，通过最小化学生策略与教师策略在当前令牌上的KL散度，实现对教师行为的模仿。

关键创新：最大的创新在于引入了“非对称”机制，将原本统一的策略梯度更新拆分为强化学习（正优势）和模仿学习（非正优势）两个分支。这种设计有效避免了在负反馈中产生的无效梯度，解决了探索瓶颈问题。

关键设计：关键设计在于损失函数的动态切换机制。通过引入一个阈值或基于优势值的条件判断，在非正优势区域应用KL散度约束，确保模型在无法获得正向奖励时，依然能通过模仿教师的分布来维持策略的稳定性与多样性。

🖼️ 关键图片

📊 实验亮点

在数学推理基准测试中，AOPD表现卓越。在强初始化条件下，性能提升4.09%；在弱初始化条件下，性能提升高达8.34%。对比标准OPD，AOPD不仅收敛更稳，且在训练全程保持了更高的策略熵，有效缓解了模型坍塌，并在序列工具使用任务中展现了更强的能力保持能力。

🎯 应用场景

该方法主要应用于大语言模型的推理能力增强，特别是在数学推理、代码生成及复杂逻辑任务中。此外，在需要模型进行序列工具调用（Tool-use）的场景下，AOPD能够有效防止模型在微调过程中出现灾难性遗忘，保持模型在多任务适配中的鲁棒性，具有极高的工业应用价值。

📄 摘要（原文）

On-policy distillation (OPD) trains a student on its own trajectories with token-level teacher feedback and often outperforms off-policy distillation and standard reinforcement learning. However, we find that its standard advantage weighted policy gradient suffers from three structural weaknesses, including high variance updates, vanishing gradients in zero-advantage regions, and exploration bottlenecks when corrective signals are insufficient. We therefore propose Asymmetric On-Policy Distillation (AOPD), which replaces ineffective negative reinforcement with localized divergence minimization in non-positive advantage regions while preserving positive reinforcement learning. Experiments on mathematical reasoning benchmarks show that AOPD consistently outperforms standard OPD, with average gains of 4.09 / 8.34 under strong / weak initialization, respectively. AOPD also maintains higher policy entropy during training and better capability retention during sequential tool-use adaptation.

Asymmetric On-Policy Distillation: Bridging Exploitation and Imitation at the Token Level

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理