Harnessing Negative Signals: Reinforcement Distillation from Teacher Data for LLM Reasoning
作者: Shuyao Xu, Cheng Peng, Jiangxuan Long, Weidi Xu, Wei Chu, Yuan Qi
分类: cs.LG, cs.AI, cs.CL
发布日期: 2025-05-30 (更新: 2025-12-14)
备注: 22 pages, 10 figures. Code available at https://github.com/Tim-Siu/reinforcement-distillation
💡 一句话要点
提出REDI:利用负样本进行强化蒸馏,提升LLM推理能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 模型蒸馏 负样本学习 大型语言模型 推理能力 REINFORCE 数据效率
📋 核心要点
- 现有模型蒸馏方法忽略了错误推理轨迹,造成了宝贵数据的浪费,如何有效利用正负推理轨迹最大化LLM推理性能是一个挑战。
- 论文提出一种两阶段训练方法,先用正样本SFT,再用正负样本通过REINFORCE风格的REDI目标进行优化,充分利用负样本信息。
- 实验表明,REDI方法优于DPO等偏好优化方法,Qwen-REDI-1.5B模型仅用少量数据就达到了与使用大量专有数据训练的模型相当的性能。
📝 摘要(中文)
本文提出了一种利用大型语言模型(LLM)推理数据进行模型蒸馏的新方法,该方法不仅利用正确的推理轨迹(正样本),还充分利用了被传统方法丢弃的错误推理轨迹(负样本)。文章采用两阶段训练策略:首先,在正样本上进行监督微调(SFT);然后,利用正负样本进行优化。研究发现,一种简单的REINFORCE风格的目标函数,称为强化蒸馏(REDI)目标,在这种蒸馏环境中优于已有的偏好优化方法,如DPO和SimPO。实验结果表明了该方法的有效性。值得注意的是,Qwen-REDI-1.5B模型仅使用来自Open-R1数据集的131k条轨迹进行训练,就在MATH-500上取得了83.1%的分数,与使用800k条专有数据训练的DeepSeek-R1-Distill-Qwen-1.5B模型性能相当。这一结果展示了利用先前丢弃的负样本所带来的显著数据效率。
🔬 方法详解
问题定义:论文旨在解决如何有效利用模型蒸馏中被忽略的负样本(错误推理轨迹)来提升小型LLM的推理能力的问题。现有方法通常只关注正样本,丢弃了包含错误信息的负样本,导致数据利用率低,模型性能提升受限。
核心思路:论文的核心思路是利用强化学习的思想,将负样本视为对错误行为的惩罚信号,通过REINFORCE算法来优化模型,鼓励模型学习正确的推理路径,同时避免错误的推理路径。这样可以更有效地利用所有数据,提升模型的推理能力。
技术框架:整体框架包含两个阶段:1) 监督微调(SFT):使用正样本对学生模型进行初步训练,使其具备一定的推理能力。2) 强化蒸馏(REDI):使用正负样本,通过REINFORCE算法优化学生模型。具体来说,对于每个推理轨迹,计算其奖励值,正样本奖励为1,负样本奖励为-1。然后,使用REINFORCE算法更新模型参数,使得模型更倾向于生成奖励值高的推理轨迹。
关键创新:最重要的技术创新点在于提出了REDI目标函数,这是一种基于REINFORCE算法的强化蒸馏方法,能够有效地利用负样本信息。与传统的偏好优化方法(如DPO)相比,REDI更简单有效,并且更适合于利用正负样本进行训练。
关键设计:REDI目标函数的关键在于奖励函数的设计,正样本奖励为1,负样本奖励为-1。此外,REINFORCE算法中的基线函数可以使用SFT模型的输出概率,以减少方差。论文还探索了不同的学习率和训练策略,以优化模型的性能。具体公式和参数设置在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
Qwen-REDI-1.5B模型仅使用131k条Open-R1数据集的轨迹进行训练,在MATH-500上取得了83.1%的成绩,与使用800k条专有数据训练的DeepSeek-R1-Distill-Qwen-1.5B模型性能相当。这表明REDI方法能够显著提高数据利用率,并有效提升模型推理能力。
🎯 应用场景
该研究成果可应用于各种需要模型蒸馏的场景,例如将大型LLM的推理能力迁移到资源受限的设备上,或者构建更高效的推理引擎。通过有效利用负样本,可以显著降低训练数据需求,提高模型训练效率,从而加速LLM在实际应用中的部署。
📄 摘要(原文)
Recent advances in model distillation show that data from advanced reasoning models can effectively train smaller student models. However, standard practices discard incorrect reasoning traces -- valuable, yet underutilized data. This paper addresses the critical question: How can both positive and negative distilled reasoning traces be effectively leveraged to maximize LLM reasoning performance in an offline setting? We employ a two-stage training recipe: first, Supervised Fine-Tuning (SFT) on positive traces, followed by a refinement stage using both positive and negative traces. We find that a simple REINFORCE-style objective, which we term the Reinforcement Distillation (REDI) objective, outperforms established preference optimization methods like DPO and SimPO in this distillation context. Our empirical evaluations demonstrate the effectiveness of this approach. Notably, our Qwen-REDI-1.5B model, trained on just 131k traces from the open Open-R1 dataset, achieves an 83.1% score on MATH-500. Its performance matches that of DeepSeek-R1-Distill-Qwen-1.5B, a model trained on 800k proprietary data. This result showcases the remarkable data efficiency of utilizing previously discarded negative traces.