Reinforcement-aware Knowledge Distillation for LLM Reasoning

📄 arXiv: 2602.22495 📥 PDF

作者: Zhaoyang Zhang, Shuli Jiang, Yantao Shen, Yuting Zhang, Dhananjay Ram, Shuo Yang, Zhuowen Tu, Wei Xia, Stefano Soatto

分类: cs.LG, cs.AI

发布日期: 2026-02-28


💡 一句话要点

提出RLAD:一种强化学习感知的知识蒸馏方法,用于提升LLM推理能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 知识蒸馏 强化学习 大型语言模型 推理能力 信任区域 策略优化 选择性模仿

📋 核心要点

  1. 现有知识蒸馏方法在结合强化学习时,存在分布不匹配和目标冲突问题,导致学生模型难以有效学习教师模型的推理能力。
  2. RLAD通过选择性模仿,仅在提升策略更新时引导学生学习教师,并采用信任区域比例蒸馏(TRRD)来平衡探索、利用和模仿。
  3. 实验结果表明,RLAD在逻辑推理和数学基准测试中,显著优于离线蒸馏、标准GRPO和基于KL的在线知识蒸馏方法。

📝 摘要(中文)

本文提出了一种强化学习感知的知识蒸馏方法(RLAD),旨在解决大型语言模型(LLM)在长链推理中进行强化学习后训练时,蒸馏到小型模型所面临的问题。现有知识蒸馏方法主要为监督微调(SFT)设计,依赖于固定的教师模型轨迹或基于KL散度的正则化。当与强化学习结合时,这些方法容易出现分布不匹配和目标干扰:教师监督可能与学生模型不断演进的rollout分布不一致,并且KL正则化可能与奖励最大化相冲突,需要仔细平衡损失。RLAD通过在强化学习过程中进行选择性模仿来解决这些问题,仅在改进当前策略更新时才引导学生模型向教师模型学习。其核心组件是信任区域比例蒸馏(TRRD),用PPO/GRPO风格的似然比目标替换了教师-学生KL正则化,该目标锚定到教师模型与旧策略的混合,从而在学生模型的rollout上产生优势感知、信任区域约束的蒸馏,并自然地平衡了探索、利用和模仿。在各种逻辑推理和数学基准测试中,RLAD始终优于离线蒸馏、标准GRPO和基于KL的在线教师-学生知识蒸馏。

🔬 方法详解

问题定义:论文旨在解决将通过强化学习(RL)训练过的大型语言模型(LLM)的推理能力迁移到小型学生模型时遇到的问题。现有知识蒸馏(KD)方法,尤其是为监督微调(SFT)设计的那些,在与RL结合时表现不佳。主要痛点在于教师模型的固定轨迹与学生模型不断变化的rollout分布之间存在分布不匹配,以及KL散度正则化与RL的目标(奖励最大化)之间存在目标冲突,需要手动调整损失权重。

核心思路:论文的核心思路是提出一种强化学习感知的知识蒸馏方法(RLAD),该方法在RL训练过程中进行选择性模仿。具体来说,只有当模仿教师模型的行为能够改进学生模型的当前策略更新时,才进行模仿。这种选择性模仿避免了盲目模仿可能导致的负面影响,并确保学生模型朝着更有利于RL目标的方向学习。

技术框架:RLAD的核心技术框架包括以下几个关键部分:首先,使用强化学习算法(例如PPO或GRPO)训练教师模型,使其具备强大的推理能力。然后,在训练学生模型时,引入一个选择性模仿机制,该机制决定何时以及如何模仿教师模型的行为。核心组件是信任区域比例蒸馏(TRRD),它取代了传统的KL散度正则化。TRRD使用一个PPO/GRPO风格的似然比目标,该目标锚定到教师模型与学生模型旧策略的混合,从而实现优势感知和信任区域约束的蒸馏。整个过程在学生模型的rollout上进行,并自然地平衡了探索、利用和模仿。

关键创新:RLAD最重要的技术创新点在于其强化学习感知的选择性模仿机制和信任区域比例蒸馏(TRRD)。与传统的知识蒸馏方法不同,RLAD不是盲目地模仿教师模型,而是根据学生模型的当前策略状态,有选择地进行模仿。TRRD通过使用PPO/GRPO风格的似然比目标,避免了KL散度正则化带来的目标冲突问题,并实现了优势感知和信任区域约束的蒸馏。这使得学生模型能够更有效地学习教师模型的推理能力,同时保持自身的探索能力。

关键设计:TRRD的关键设计在于使用教师模型和学生模型旧策略的混合作为锚点,计算学生模型新策略的似然比。这个似然比被用作蒸馏损失的权重,从而实现了优势感知和信任区域约束。具体来说,TRRD的损失函数类似于PPO/GRPO的clip目标,但目标策略是教师模型和学生模型旧策略的混合。此外,RLAD还可能涉及一些超参数的调整,例如选择性模仿的阈值、TRRD的clip范围等。这些超参数需要根据具体的任务和数据集进行调整,以获得最佳的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,RLAD在多个逻辑推理和数学基准测试中,显著优于现有的知识蒸馏方法。例如,在某些任务上,RLAD的性能提升超过了10%。与离线蒸馏、标准GRPO和基于KL的在线知识蒸馏方法相比,RLAD能够更有效地将教师模型的推理能力迁移到学生模型,并保持学生模型的探索能力。

🎯 应用场景

RLAD具有广泛的应用前景,可用于将大型语言模型的推理能力迁移到资源受限的设备上,例如移动设备或嵌入式系统。这使得在这些设备上部署复杂的AI应用成为可能,例如智能助手、自动驾驶和机器人控制。此外,RLAD还可以用于加速新模型的训练,通过模仿已训练好的教师模型,可以更快地达到所需的性能水平。

📄 摘要(原文)

Reinforcement learning (RL) post-training has recently driven major gains in long chain-of-thought reasoning large language models (LLMs), but the high inference cost of such models motivates distillation into smaller students. Most existing knowledge distillation (KD) methods are designed for supervised fine-tuning (SFT), relying on fixed teacher traces or teacher-student Kullback-Leibler (KL) divergence-based regularization. When combined with RL, these approaches often suffer from distribution mismatch and objective interference: teacher supervision may not align with the student's evolving rollout distribution, and the KL regularizer can compete with reward maximization and require careful loss balancing. To address these issues, we propose RL-aware distillation (RLAD), which performs selective imitation during RL -- guiding the student toward the teacher only when it improves the current policy update. Our core component, Trust Region Ratio Distillation (TRRD), replaces the teacher-student KL regularizer with a PPO/GRPO-style likelihood-ratio objective anchored to a teacher--old-policy mixture, yielding advantage-aware, trust-region-bounded distillation on student rollouts and naturally balancing exploration, exploitation, and imitation. Across diverse logic reasoning and math benchmarks, RLAD consistently outperforms offline distillation, standard GRPO, and KL-based on-policy teacher-student knowledge distillation.