Demystifying OPD: Length Inflation and Stabilization Strategies for Large Language Models

📄 arXiv: 2604.08527v1 📥 PDF

作者: Feng Luo, Yu-Neng Chuang, Guanchu Wang, Zicheng Xu, Xiaotian Han, Tianyi Zhang, Vladimir Braverman

分类: cs.CL, cs.LG

发布日期: 2026-04-09


💡 一句话要点

提出StableOPD,解决On-policy蒸馏中长度膨胀和训练不稳定的问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: On-policy蒸馏 长度膨胀 训练稳定性 大型语言模型 数学推理 散度约束 Rollout混合

📋 核心要点

  1. On-policy蒸馏在训练过程中易出现长度膨胀,导致训练数据偏差和性能下降。
  2. StableOPD通过引入参考散度约束和rollout混合蒸馏,抑制重复并稳定训练。
  3. 实验表明,StableOPD能有效防止截断崩溃,稳定训练,并在数学推理任务上提升7.2%。

📝 摘要(中文)

本文研究了On-policy蒸馏(OPD)中存在的失败模式:随着训练的进行,on-policy rollouts可能会经历突发的长度膨胀,导致被截断的轨迹在训练数据中占据主导地位。这种截断崩溃与突发的重复饱和现象同时发生,并导致有偏的梯度信号,从而导致严重的训练不稳定和验证性能的急剧下降。我们将这个问题归因于学生模型诱导的数据收集与蒸馏目标之间的相互作用,这种相互作用隐式地偏向于长且重复的rollouts。为了解决这个问题,我们提出了StableOPD,一个稳定的OPD框架,它结合了基于参考的散度约束和rollout混合蒸馏。这些方法共同缓解了重复诱导的长度膨胀,并进一步稳定了OPD训练。在多个数学推理数据集上,我们的方法可以防止截断崩溃,稳定训练动态,并将性能平均提高7.2%。

🔬 方法详解

问题定义:论文旨在解决On-policy蒸馏(OPD)在训练大型语言模型时出现的长度膨胀和训练不稳定的问题。现有的OPD方法在训练过程中,由于学生模型自身生成的数据分布会倾向于生成更长、更重复的序列,导致训练数据中被截断的轨迹占比过高,梯度信号有偏,最终导致训练崩溃和性能下降。

核心思路:论文的核心思路是通过约束学生模型生成的数据分布,使其与教师模型或参考分布更加接近,从而抑制长度膨胀和重复生成。同时,采用rollout混合蒸馏,结合不同长度的轨迹进行训练,以缓解截断轨迹带来的偏差。

技术框架:StableOPD框架主要包含两个关键模块:1) 基于参考的散度约束:通过计算学生模型生成序列与参考序列(例如教师模型生成的序列或预定义的分布)之间的散度,并将其作为正则化项加入损失函数中,从而约束学生模型的行为。2) Rollout混合蒸馏:在训练过程中,混合使用不同长度的rollout轨迹,避免模型过度依赖被截断的短轨迹。

关键创新:StableOPD的关键创新在于将基于参考的散度约束和rollout混合蒸馏相结合,从而有效地解决了OPD中长度膨胀和训练不稳定的问题。与传统的OPD方法相比,StableOPD能够更好地控制学生模型的行为,避免其生成过长和重复的序列,从而提高训练的稳定性和性能。

关键设计:在基于参考的散度约束中,可以使用KL散度或JS散度等不同的散度度量方式。参考分布的选择也很重要,可以选择教师模型的输出分布,也可以选择一个预定义的分布。Rollout混合蒸馏中,需要合理设置不同长度轨迹的混合比例,以平衡训练的偏差和方差。损失函数通常包含蒸馏损失、散度约束损失和语言模型损失等部分,需要仔细调整各个损失项的权重。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,StableOPD在多个数学推理数据集上显著优于传统的OPD方法,平均性能提升7.2%。通过可视化分析,验证了StableOPD能够有效抑制长度膨胀和重复生成,从而稳定训练过程并提高模型性能。

🎯 应用场景

StableOPD方法可应用于各种需要序列生成的任务,例如机器翻译、文本摘要、对话生成和代码生成等。通过稳定训练过程,可以提升大型语言模型在这些任务上的性能和可靠性,尤其是在需要生成长序列的场景下,该方法具有重要的应用价值。

📄 摘要(原文)

On-policy distillation (OPD) trains student models under their own induced distribution while leveraging supervision from stronger teachers. We identify a failure mode of OPD: as training progresses, on-policy rollouts can undergo abrupt length inflation, causing truncated trajectories to dominate the training data. This truncation collapse coincides with abrupt repetition saturation and induces biased gradient signals, leading to severe training instability and sharp degradation in validation performance. We attribute this problem to the interaction between student-induced data collection and the distillation objective, which implicitly favors long and repetitive rollouts. To address this issue, we propose StableOPD, a stabilized OPD framework that combines a reference-based divergence constraint with rollout mixture distillation. These together mitigate repetition-induced length inflation and further stabilize OPD training. Across multiple math reasoning datasets, our approach prevents truncation collapse, stabilizes training dynamics, and improves performance by 7.2% on average.