Physics-Guided Policy Optimization with Self-Distillation

📄 arXiv: 2606.03620v1 📥 PDF

作者: Ke Wang, Yuning Wu, Haoran Liu, Chaoqun Jia, Devin Chen, Kai Wei

分类: cs.LG, cs.AI

发布日期: 2026-06-02


💡 一句话要点

提出物理引导的策略优化方法以解决自蒸馏训练的不稳定性问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 自蒸馏训练 策略优化 动态步长 互信息 机器学习 自然语言处理 强化学习

📋 核心要点

  1. 现有的自蒸馏策略优化方法在更新步骤的信任程度上存在不稳定性,导致训练过程中的性能波动。
  2. 本文提出物理引导的策略优化(PGPO),通过引入信息调制步长乘子来动态调整更新步长,从而提高训练的稳定性。
  3. 在Science-QA数据集上,PGPO在4个领域中有3个领域的表现优于SDPO,提升幅度最高达4.5分,且训练过程更加稳定。

📝 摘要(中文)

自蒸馏策略优化(SDPO)已成为大型语言模型后训练的热门范式,模型通过特权信息学习自身预测。然而,SDPO对每次更新步骤的信任程度非常敏感,来自自教师的修正可能在某些批次中具有高度信息性,而在其他批次中则可能误导,均匀应用固定步长可能导致训练不稳定。本文受到粘性流体动力学的启发,提出了物理引导的策略优化(PGPO),引入了基于学生预测与反馈条件教师之间互信息估计的信信息调制步长乘子。我们证明了这种调制保留了普通随机梯度下降的一级弱近似保证,并且每次迭代的开销微乎其微。我们在Science-QA数据集上评估PGPO,结果显示其在4个领域中有3个领域超越了SDPO,提升幅度最高可达4.5分,同时在SDPO训练后期崩溃的情况下保持稳定。

🔬 方法详解

问题定义:本文旨在解决自蒸馏策略优化(SDPO)在更新步骤信任度不稳定的问题。现有方法在不同批次中对自教师的修正信任程度不一,导致训练过程中的性能波动和不稳定性。

核心思路:论文提出物理引导的策略优化(PGPO),通过引入基于互信息估计的动态步长调制机制,来调整每次更新的步长,从而提高训练的稳定性和有效性。

技术框架:PGPO的整体架构包括信息调制步长乘子、学生模型的预测与反馈条件教师的互信息计算等模块。通过这些模块,PGPO能够在每次迭代中根据当前的训练状态动态调整更新步长。

关键创新:PGPO的主要创新在于引入了信息调制步长乘子,这一设计使得模型能够根据反馈信息的质量动态调整更新步长,从而保持训练的稳定性,区别于传统的固定步长更新策略。

关键设计:在实现过程中,PGPO采用了互信息的估计方法来计算学生预测与教师反馈之间的关系,并在此基础上设计了步长调制机制,确保每次迭代的开销微乎其微。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

在实验中,PGPO在Science-QA数据集上表现优异,超越了自蒸馏策略优化(SDPO)在4个领域中的3个,提升幅度最高达4.5分。同时,PGPO在训练后期保持了稳定性,而SDPO则出现了崩溃现象。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、强化学习和其他需要自蒸馏训练的机器学习任务。通过提高训练的稳定性,PGPO可以在实际应用中提升模型的性能,尤其是在数据稀缺或噪声较大的环境中,具有重要的实际价值和未来影响。

📄 摘要(原文)

Self-distilled policy optimization (SDPO) has become a popular paradigm for LLM post-training, where a model learns from its own predictions conditioned on privileged information. SDPO, however, is sensitive to how much each update step should be trusted: corrections from a self-teacher can be highly informative on some batches and misleading on others, and applying them uniformly with a fixed step size can destabilize training. Drawing inspiration from viscous-fluid dynamics and formalizing the analogy at the SDE level, we propose Physics-Guided Policy Optimization (PGPO), which introduces an information-modulated step-size multiplier derived from a mutual-information estimate between the student's predictions and the feedback-conditioned teacher. We show that this modulation preserves the order-1 weak-approximation guarantees of vanilla SGD, and incurs negligible overhead per iteration. We evaluate PGPO on the Science-QA dataset, where it outperforms SDPO on 3 of the 4 domains with gains of up to +4.5 points, while remaining stable in a setting where SDPO collapses late in training.