Reinforcement Learning-based Knowledge Distillation with LLM-as-a-Judge

📄 arXiv: 2604.02621 📥 PDF

作者: Yiyang Shen, Lifu Tu, Weiran Wang

分类: cs.CL, cs.LG

发布日期: 2026-04-06


💡 一句话要点

提出基于强化学习和LLM判定的无标签知识蒸馏框架,提升数学推理能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 知识蒸馏 大型语言模型 无标签学习 数学推理 奖励函数 语言模型微调

📋 核心要点

  1. 现有方法依赖可验证的奖励,需要ground truth标签,限制了强化学习在语言模型推理能力提升上的应用。
  2. 利用LLM作为裁判,对模型输出进行评估并提供奖励,实现无标签知识蒸馏,摆脱对人工标注数据的依赖。
  3. 实验表明,该方法在数学推理基准测试中取得了显著的性能提升,验证了LLM裁判的有效性。

📝 摘要(中文)

本文提出了一种基于强化学习(RL)的框架,该框架利用大型语言模型(LLM)作为裁判,评估模型在大量无标签数据上的输出,从而实现无标签知识蒸馏,并取代了对ground truth标签的需求。值得注意的是,裁判仅需输出单个token,从而提高了奖励计算的效率。当与可验证的奖励相结合时,我们的方法在数学推理基准测试中产生了显著的性能提升。这些结果表明,基于LLM的评估器可以为RL微调产生有效的训练信号。

🔬 方法详解

问题定义:论文旨在解决在缺乏ground truth标签的情况下,如何利用强化学习提升语言模型(特别是小型语言模型)的推理能力的问题。现有方法通常依赖于可验证的奖励信号,这需要人工标注的数据,限制了其在实际应用中的范围,尤其是在数据标注成本高昂或难以获取的场景下。

核心思路:论文的核心思路是利用大型语言模型(LLM)作为裁判,对小型语言模型的输出进行评估,并根据评估结果提供奖励信号。这种方法无需人工标注的ground truth标签,即可实现知识蒸馏,将LLM的知识迁移到小型模型中。通过强化学习,小型模型可以学习到如何生成更符合LLM裁判期望的输出,从而提升其推理能力。

技术框架:整体框架包含以下几个主要模块:1) 小型语言模型(Student Model):作为强化学习的agent,负责生成输出。2) 大型语言模型(LLM Judge):作为环境,负责评估Student Model的输出,并给出奖励信号。3) 强化学习算法:用于更新Student Model的策略,使其能够生成更高质量的输出。具体流程是:Student Model生成输出,LLM Judge对输出进行评估并给出奖励,强化学习算法根据奖励更新Student Model的参数,重复以上过程直到模型收敛。

关键创新:最重要的技术创新点在于使用LLM作为裁判,替代了传统强化学习中对ground truth标签的依赖。与现有方法相比,该方法无需人工标注数据,即可实现知识蒸馏,降低了训练成本,提高了模型的泛化能力。此外,论文还提出了一种单token输出的奖励计算方式,提高了奖励计算的效率。

关键设计:LLM Judge被设计为输出单个token,代表对Student Model输出的评分。具体实现中,可以使用预定义的token集合,例如{“good”, “bad”},LLM Judge根据Student Model的输出选择最合适的token。奖励函数可以根据LLM Judge的输出进行设计,例如,如果LLM Judge输出“good”,则奖励为+1,如果输出“bad”,则奖励为-1。强化学习算法可以选择常见的算法,例如PPO或REINFORCE。论文中可能还涉及一些超参数的调整,例如学习率、奖励折扣因子等,这些参数需要根据具体任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在数学推理基准测试中取得了显著的性能提升,表明LLM作为裁判可以为强化学习微调提供有效的训练信号。具体性能数据和对比基线信息未知,但摘要强调了“substantial performance gains”,暗示了显著的提升幅度。

🎯 应用场景

该研究成果可应用于各种需要提升小型语言模型推理能力的场景,例如智能客服、自动问答系统、教育辅导等。通过无标签知识蒸馏,可以降低模型训练成本,提高模型在实际应用中的泛化能力,并促进小型语言模型在资源受限设备上的部署。

📄 摘要(原文)

Reinforcement Learning (RL) has been shown to substantially improve the reasoning capability of small and large language models (LLMs), but existing approaches typically rely on verifiable rewards, hence ground truth labels. We propose an RL framework that uses rewards from an LLM that acts as a judge evaluating model outputs over large amounts of unlabeled data, enabling label-free knowledge distillation and replacing the need of ground truth supervision. Notably, the judge operates with a single-token output, making reward computation efficient. When combined with verifiable rewards, our approach yields substantial performance gains across math reasoning benchmarks. These results suggest that LLM-based evaluators can produce effective training signals for RL fine-tuning.