HDPO: Hybrid Distillation Policy Optimization via Privileged Self-Distillation

作者: Ken Ding

分类: cs.LG, cs.AI

发布日期: 2026-03-25

💡 一句话要点

提出HDPO，通过特权自蒸馏解决数学推理中强化学习的“悬崖”问题。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 强化学习 策略优化 自蒸馏 数学推理 梯度消失

📋 核心要点

现有基于强化学习的数学推理大模型，在遇到无法解决的“悬崖”问题时，强化学习梯度消失，导致模型无法学习。
HDPO通过特权自蒸馏增强标准强化学习，利用ground-truth信息生成特权rollout，并将教师模型的token级分布提炼到学生模型中。
实验表明，HDPO在保持贪婪准确性的同时，显著提高了覆盖率指标，例如pass@4和pass@8，且蒸馏权重可直接控制探索-利用的平衡。

📝 摘要（中文）

针对使用强化学习(RL)训练的大型语言模型在数学推理中面临的根本挑战：在模型完全无法解决的问题（“悬崖”提示）上，RL梯度完全消失，阻止了任何学习信号到达这些失败模式。我们引入了混合蒸馏策略优化(HDPO)，它通过针对悬崖提示的特权自蒸馏来增强标准RL。在每个训练步骤中，HDPO识别所有rollout都失败的提示，通过向模型提供ground-truth信息来生成特权rollout，过滤正确的解决方案，并将教师的token级分布提炼到学生中。因为教师和学生共享相同的权重（仅在输入上不同），所以可实现性差距是有界限的，这与跨模型蒸馏不同。我们证明，R=1过滤的特权生成恢复了硬阈值限制中的最优KL正则化RL策略。在OpenMathInstruct-2上使用Qwen2.5-Math-1.5B-Instruct进行的实验表明，HDPO始终提高覆盖率指标（pass@4提高+0.8-1.1%，pass@8提高+0.4-1.7%），同时保持贪婪准确性，蒸馏权重lambda直接控制探索-利用的权衡。

🔬 方法详解

问题定义：论文旨在解决大型语言模型在数学推理任务中使用强化学习训练时遇到的“悬崖”问题。当模型遇到完全无法解决的提示时，强化学习的梯度会消失，导致模型无法从这些失败的案例中学习。现有方法难以有效解决这类问题，导致模型在特定类型的数学问题上表现不佳。

核心思路：HDPO的核心思路是利用“特权信息”进行自蒸馏。具体来说，当模型在某些提示上完全失败时，HDPO会向模型提供ground-truth信息，使其能够生成正确的rollout。然后，将这些“特权”rollout作为教师信号，指导学生模型学习，从而克服梯度消失的问题。这种自蒸馏方式避免了跨模型蒸馏带来的可实现性差距。

技术框架：HDPO在标准强化学习框架的基础上，增加了一个特权自蒸馏模块。整体流程如下：1) 使用强化学习训练模型；2) 识别所有rollout都失败的“悬崖”提示；3) 对于这些提示，利用ground-truth信息生成特权rollout；4) 过滤掉不正确的特权rollout；5) 使用特权rollout的token级分布作为教师信号，通过KL散度损失函数蒸馏到学生模型。

关键创新：HDPO的关键创新在于利用特权自蒸馏来解决强化学习中的梯度消失问题。与传统的跨模型蒸馏不同，HDPO采用自蒸馏的方式，教师和学生模型共享相同的权重，从而保证了可实现性差距是有界的。此外，HDPO还引入了过滤机制，确保只有正确的特权rollout才能用于蒸馏，从而提高了学习效率。

关键设计：HDPO的关键设计包括：1) 使用KL散度作为蒸馏损失函数，衡量教师和学生模型token级分布的差异；2) 引入蒸馏权重lambda，用于控制探索-利用的权衡；3) 设计过滤机制，筛选出正确的特权rollout；4) 理论证明了在硬阈值限制下，R=1过滤的特权生成可以恢复最优KL正则化RL策略。

📊 实验亮点

实验结果表明，HDPO在OpenMathInstruct-2数据集上使用Qwen2.5-Math-1.5B-Instruct模型时，显著提高了覆盖率指标。具体来说，pass@4指标提高了+0.8-1.1%，pass@8指标提高了+0.4-1.7%，同时保持了贪婪准确性。这些结果表明，HDPO能够有效解决强化学习中的梯度消失问题，提高模型在数学推理任务上的性能。

🎯 应用场景

HDPO方法可应用于各种需要复杂推理能力的场景，例如数学问题求解、代码生成、自然语言理解等。通过解决强化学习中的梯度消失问题，HDPO可以提高模型在困难任务上的性能，使其能够更好地处理复杂和具有挑战性的问题。该方法具有广泛的应用前景，可以促进人工智能在各个领域的应用。

📄 摘要（原文）

Large language models trained with reinforcement learning (RL) for mathematical reasoning face a fundamental challenge: on problems the model cannot solve at all - "cliff" prompts - the RL gradient vanishes entirely, preventing any learning signal from reaching these failure modes. We introduce Hybrid Distillation Policy Optimization (HDPO), which augments standard RL with privileged self-distillation targeting cliff prompts. On each training step, HDPO identifies prompts where all rollouts fail, generates privileged rollouts by providing the model with ground-truth information, filters for correct solutions, and distills the teacher's token-level distribution into the student. Because teacher and student share the same weights - differing only in their input - the realizability gap is provably bounded, unlike cross-model distillation. We prove that R=1 filtered privileged generation recovers the optimal KL-regularized RL policy in the hard-threshold limit. Experiments on OpenMathInstruct-2 with Qwen2.5-Math-1.5B-Instruct show that HDPO consistently improves coverage metrics (pass@4 by +0.8-1.1%, pass@8 by +0.4-1.7%) while maintaining greedy accuracy, with the distillation weight lambda providing direct control over the exploration-exploitation tradeoff.

HDPO: Hybrid Distillation Policy Optimization via Privileged Self-Distillation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理