On the Geometry of On-Policy Distillation

📄 arXiv: 2606.07082v1 📥 PDF

作者: Zhennan Shen, Yanshu Li, Qingyu Yin, Chak Tou Leong, Zhilin Wang, Yanxu Chen, Rongduo Han, Sunbowen Lee, Yi R. Fung

分类: cs.LG, cs.AI

发布日期: 2026-06-05

备注: 17 pages, 8 figures


💡 一句话要点

提出一种新方法以理解在政策蒸馏中的参数更新几何特性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 在政策蒸馏 参数空间 监督微调 强化学习 更新几何特性 子空间锁定 自然语言处理

📋 核心要点

  1. 现有的在政策蒸馏方法对其训练动态理解不足,导致难以优化其性能。
  2. 本文通过表征OPD在参数空间中的更新轨迹,揭示其与SFT和RLVR的不同之处。
  3. 实验结果显示,OPD的更新在参数空间中表现出独特的几何特性,且锁定的子空间对其性能至关重要。

📝 摘要(中文)

在政策蒸馏(OPD)在提升大型语言模型推理能力中的应用日益增多,但其训练动态仍不够清晰。本文对OPD在参数空间中的更新轨迹进行了表征,并与监督微调(SFT)和可验证奖励的强化学习(RLVR)进行了比较。研究发现,OPD的更新在参数空间中处于一种放松的非主导状态,更新影响的权重较少,且更强烈地避免主方向。此外,OPD表现出子空间锁定现象,其累积更新迅速进入一个狭窄的低维通道。对训练进行约束以保持早期形成的更新子空间能够保持OPD的性能,但会显著降低SFT的效果,表明锁定的子空间对OPD是功能上足够的。控制实验进一步表明,稀疏化更新令牌和将回滚生成移至非政策状态能够保持秩动态,而将OPD目标与RLVR混合则会改变这些动态。总体而言,这些结果表明,OPD不仅仅是SFT与RLVR之间的中间点,而是在参数空间中诱导出其自身的更新几何特性。

🔬 方法详解

问题定义:本文旨在解决在政策蒸馏(OPD)训练动态理解不足的问题,现有方法如监督微调(SFT)和强化学习(RLVR)在参数更新方面存在局限性。

核心思路:通过对OPD的参数更新轨迹进行深入分析,揭示其在参数空间中的独特几何特性,强调其与传统方法的区别。

技术框架:研究采用参数空间诊断工具,比较OPD、SFT和RLVR的更新行为,分析其在训练过程中的动态变化。主要模块包括更新轨迹的表征、子空间锁定现象的观察以及控制实验的设计。

关键创新:本文的主要创新在于识别OPD的更新几何特性,发现其在参数空间中处于放松的非主导状态,并表现出子空间锁定现象,这与现有方法的更新机制有本质区别。

关键设计:研究中采用了稀疏化更新令牌和非政策状态的回滚生成等设计,以保持OPD的秩动态,同时探讨了将OPD目标与RLVR混合对更新动态的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,OPD在参数空间中的更新表现出独特的几何特性,尤其是锁定的子空间对其性能至关重要。与SFT相比,OPD的更新影响的权重较少,且避免主方向的程度更强,显示出其在训练动态上的显著优势。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、对话系统和智能助手等,能够为大型语言模型的训练提供新的思路和方法。通过深入理解OPD的更新机制,可以进一步提升模型的推理能力和适应性,具有重要的实际价值和未来影响。

📄 摘要(原文)

On-policy distillation (OPD) is increasingly used to improve large language model reasoning, but its training dynamics remain poorly understood. We characterize the trajectory of OPD updates in parameter space and compare it with supervised fine-tuning (SFT) and reinforcement learning with verifiable rewards (RLVR). A suite of parameter-space diagnostics consistently places OPD in a relaxed off-principal regime: compared with SFT, its updates affect fewer weights and avoid principal directions more strongly, while compared with RLVR, they remain less tightly constrained. Beyond this static localization, OPD exhibits subspace locking: its cumulative updates rapidly enter a narrow low-dimensional channel. Constraining training to the update subspace formed early in training preserves OPD performance but substantially degrades SFT, indicating that the locked subspace is functionally sufficient for OPD. Control experiments further show that sparsifying the update tokens and shifting rollout generation off-policy preserve the rank dynamics, whereas mixing the OPD objective with RLVR changes them. Overall, these results suggest that OPD is not merely an intermediate point between SFT and RLVR, but induces its own update geometry in parameter space.