Beyond Absolute Imitation: Anchored Residual Guidance for Privileged On-Policy Distillation

📄 arXiv: 2606.10385v1 📥 PDF

作者: Wenhao Zhang

分类: cs.LG, cs.AI

发布日期: 2026-06-09

备注: 17 pages, 8 figures. Project page: https://vanhowe.github.io/AR-OPD/


💡 一句话要点

提出AR-OPD以解决教师-学生模型间的推理不匹配问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 政策蒸馏 特权信息 推理能力 深度学习 模型训练 自然语言处理 智能系统

📋 核心要点

  1. 现有的Privileged OPD方法未能有效区分可达推理步骤与未来条件信号,导致学生模型倾向于跳过有效的中间推理。
  2. 本文提出的AR-OPD方法通过部分特权教师建立局部兼容锚点,注入控制的预见性残差,提供目标导向的指导。
  3. AR-OPD在多种推理任务中表现优异,较全特权OPD提升2.3分,较SFT提升7.9分,并显著降低后见泄漏和晚期漂移。

📝 摘要(中文)

在政策蒸馏(OPD)中,通过对齐学生模型与教师模型的预测分布,显著提升了大型语言模型的复杂推理能力。Privileged OPD进一步增强了这一方法,利用自教师模型和特权信息来缩小教师与学生的能力差距。然而,现有方法将特权信息视为单一模仿目标,未能有效区分可达推理步骤与未来条件的信号。为此,本文提出了锚定残差政策蒸馏(AR-OPD),通过部分特权教师建立局部兼容锚点,注入控制的预见性残差,从而提供目标导向的指导。实验结果表明,AR-OPD在多种推理任务中超越了全特权OPD和SFT,显著降低了后见泄漏和晚期漂移。

🔬 方法详解

问题定义:本文旨在解决现有Privileged OPD方法中教师与学生模型间的推理不匹配问题。现有方法将特权信息视为单一模仿目标,导致学生模型在推理过程中跳过有效的中间步骤。

核心思路:AR-OPD通过引入部分特权教师,建立局部兼容的锚点,并将预见性信息作为控制的残差注入,从而提供更有效的目标导向指导。这样的设计旨在减少学生模型的后见偏差,鼓励其进行更全面的推理。

技术框架:AR-OPD的整体架构包括两个主要模块:部分特权教师和锚定残差注入。部分特权教师负责提供局部兼容的推理指导,而锚定残差则用于引导学生模型朝向目标进行推理。

关键创新:AR-OPD的核心创新在于其锚定残差机制,能够有效区分可达推理步骤与未来条件信号,避免了学生模型的后见偏差。这一机制与传统的全视图模仿方法形成了本质区别。

关键设计:在AR-OPD中,关键设计包括对部分特权教师的选择、残差注入的控制机制,以及损失函数的设计,以确保学生模型在推理过程中能够有效利用预见性信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,AR-OPD在多种推理任务中超越了全特权OPD,提升了2.3分,较SFT提升了7.9分。同时,该方法显著降低了21.7%的后见泄漏,并在长达768个token的复杂任务中实现了7.2分的优势。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、智能问答系统和复杂决策支持系统。通过提升模型的推理能力,AR-OPD可以在需要深度理解和推理的任务中发挥重要作用,推动智能系统的实际应用和发展。

📄 摘要(原文)

On-policy distillation (OPD) has demonstrated strong empirical gains in enhancing complex reasoning in LLMs by aligning a student model with a teacher's predictive distribution over the student's own trajectories. An emerging variant, Privileged OPD, further strengthens this paradigm by employing a self-teacher model augmented with privileged information, such as oracle traces, to mitigate teacher-student capacity gaps while providing dense, answer-directed supervision. However, current methods treat privileged information as a monolithic imitation target, failing to disentangle locally reachable reasoning steps from future-conditioned oracle signals. Consequently, the student is encouraged to match a hindsight-biased distribution that often falls outside its local predictive support. This reachability mismatch incentivizes the student model to skip valid intermediate reasoning in favor of locally unsupported shortcuts. To resolve this, we introduce Anchored Residual On-Policy Distillation (AR-OPD), a dual-view framework that disentangles privileged supervision. Rather than enforcing strict full-view imitation, AR-OPD establishes a locally compatible anchor using a partially privileged teacher, isolating and injecting oracle foresight as a controlled residual to provide destination-directed guidance. Across diverse reasoning tasks, AR-OPD outperforms full privileged OPD by 2.3 points and SFT by 7.9 points. Crucially, this anchored residual mechanism reduces hindsight leakage by 21.7% and mitigates late-stage drift, yielding up to a 7.2-point advantage on challenging long-horizon trajectories exceeding 768 tokens.