Rubric-based On-policy Distillation

📄 arXiv: 2605.07396v1 📥 PDF

作者: Junfeng Fang, Zhepei Hong, Mao Zheng, Mingyang Song, Gengsheng Li, Houcheng Jiang, Dan Zhang, Haiyun Guo, Xiang Wang, Tat-Seng Chua

分类: cs.LG, cs.AI

发布日期: 2026-05-08

备注: Preprint. Code is available at https://github.com/Peregrine123/ROPD_official

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于准则的在线策略蒸馏框架ROPD,实现黑盒模型的高效对齐

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 在线策略蒸馏 模型对齐 黑盒蒸馏 大语言模型 强化学习 知识蒸馏

📋 核心要点

  1. 现有在线策略蒸馏方法高度依赖教师模型的Logits输出,导致其无法应用于闭源或黑盒模型场景。
  2. ROPD框架通过对比教师与学生响应,自动诱导生成语义准则,并利用该准则对学生采样进行评分以指导优化。
  3. 实验证明ROPD在性能上超越了主流Logits蒸馏方法,并在样本效率上实现了最高10倍的显著提升。

📝 摘要(中文)

在线策略蒸馏(OPD)是模型对齐的强大范式,但其对教师模型Logits的依赖限制了其在黑盒场景下的应用。本文提出结构化语义准则(Rubrics)可作为教师Logits的可扩展替代方案,仅需教师生成的响应即可实现OPD。为此,我们引入了ROPD框架,通过教师与学生响应的对比诱导生成提示词特定的准则,并利用这些准则对学生输出进行评分,从而指导在线策略优化。实验表明,ROPD在多数场景下优于先进的基于Logits的OPD方法,样本效率提升高达10倍。该研究证明了基于准则的OPD是黑盒兼容的灵活替代方案,为专有模型与开源大模型间的可扩展蒸馏提供了强有力的基准。

🔬 方法详解

问题定义:现有在线策略蒸馏(OPD)方法通常要求获取教师模型的Logits(概率分布),这在闭源API或黑盒模型场景下无法实现,限制了知识蒸馏的通用性。

核心思路:引入“语义准则(Rubrics)”作为中间媒介,替代Logits。通过分析教师与学生输出的差异,自动构建评估准则,将黑盒蒸馏转化为基于奖励的强化学习过程。

技术框架:ROPD包含两个核心阶段:首先是准则诱导阶段,通过对比教师与学生的响应生成结构化评估标准;其次是策略优化阶段,利用生成的准则对学生模型的Rollouts进行打分,通过在线策略优化算法更新学生模型。

关键创新:核心创新在于将“Logits匹配”范式转变为“准则引导”范式。该方法不依赖模型内部概率,仅需文本响应即可实现对齐,极大地扩展了蒸馏技术的适用范围。

关键设计:采用了基于提示词的准则生成机制,通过对比学习提取关键评价维度;在优化过程中,利用这些准则作为奖励函数(Reward Function),引导学生模型在在线采样中不断逼近教师的响应质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ROPD在多项基准测试中表现优异,不仅在对齐质量上超越了传统的Logits蒸馏方法,更在样本效率上实现了高达10倍的提升。实验结果证实,该方法在黑盒环境下依然能保持极高的训练稳定性,是目前实现高效、灵活模型蒸馏的最强基准之一。

🎯 应用场景

该方法适用于大语言模型的知识蒸馏与对齐,特别是在无法获取教师模型Logits的闭源API场景(如GPT-4等)中具有极高价值。它为企业级模型微调、开源模型性能提升以及多模型协作对齐提供了高效、低成本的解决方案,推动了模型蒸馏技术的民主化。

📄 摘要(原文)

On-policy distillation (OPD) is a powerful paradigm for model alignment, yet its reliance on teacher logits restricts its application to white-box scenarios. We contend that structured semantic rubrics can serve as a scalable alternative to teacher logits, enabling OPD using only teacher-generated responses. To prove it, we introduce ROPD, a simple yet foundational framework for rubric-based OPD. Specifically, ROPD induces prompt-specific rubrics from teacher-student contrasts, and then utilizes these rubrics to score the student rollouts for on-policy optimization. Empirically, ROPD outperforms the advanced logit-based OPD methods across most scenarios, and achieving up to a 10x gain in sample efficiency. These results position rubric-based OPD as a flexible, black-box-compatible alternative to the prevailing logit-based OPD, offering a simple yet strong baseline for scalable distillation across proprietary and open-source LLMs. Code is available at https://github.com/Peregrine123/ROPD_official.