Rubric-based On-policy Distillation
作者: Junfeng Fang, Zhepei Hong, Mao Zheng, Mingyang Song, Gengsheng Li, Houcheng Jiang, Dan Zhang, Haiyun Guo, Xiang Wang, Tat-Seng Chua
分类: cs.LG, cs.AI
发布日期: 2026-05-08
备注: Preprint. Code is available at https://github.com/Peregrine123/ROPD_official
🔗 代码/项目: GITHUB
💡 一句话要点
提出基于准则的在线策略蒸馏框架ROPD,实现黑盒模型的高效对齐
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 在线策略蒸馏 模型对齐 黑盒蒸馏 大语言模型 强化学习 知识蒸馏
📋 核心要点
- 现有在线策略蒸馏方法高度依赖教师模型的Logits输出,导致其无法应用于闭源或黑盒模型场景。
- ROPD框架通过对比教师与学生响应,自动诱导生成语义准则,并利用该准则对学生采样进行评分以指导优化。
- 实验证明ROPD在性能上超越了主流Logits蒸馏方法,并在样本效率上实现了最高10倍的显著提升。
📝 摘要(中文)
在线策略蒸馏(OPD)是模型对齐的强大范式,但其对教师模型Logits的依赖限制了其在黑盒场景下的应用。本文提出结构化语义准则(Rubrics)可作为教师Logits的可扩展替代方案,仅需教师生成的响应即可实现OPD。为此,我们引入了ROPD框架,通过教师与学生响应的对比诱导生成提示词特定的准则,并利用这些准则对学生输出进行评分,从而指导在线策略优化。实验表明,ROPD在多数场景下优于先进的基于Logits的OPD方法,样本效率提升高达10倍。该研究证明了基于准则的OPD是黑盒兼容的灵活替代方案,为专有模型与开源大模型间的可扩展蒸馏提供了强有力的基准。
🔬 方法详解
问题定义:现有在线策略蒸馏(OPD)方法通常要求获取教师模型的Logits(概率分布),这在闭源API或黑盒模型场景下无法实现,限制了知识蒸馏的通用性。
核心思路:引入“语义准则(Rubrics)”作为中间媒介,替代Logits。通过分析教师与学生输出的差异,自动构建评估准则,将黑盒蒸馏转化为基于奖励的强化学习过程。
技术框架:ROPD包含两个核心阶段:首先是准则诱导阶段,通过对比教师与学生的响应生成结构化评估标准;其次是策略优化阶段,利用生成的准则对学生模型的Rollouts进行打分,通过在线策略优化算法更新学生模型。
关键创新:核心创新在于将“Logits匹配”范式转变为“准则引导”范式。该方法不依赖模型内部概率,仅需文本响应即可实现对齐,极大地扩展了蒸馏技术的适用范围。
关键设计:采用了基于提示词的准则生成机制,通过对比学习提取关键评价维度;在优化过程中,利用这些准则作为奖励函数(Reward Function),引导学生模型在在线采样中不断逼近教师的响应质量。
🖼️ 关键图片
📊 实验亮点
ROPD在多项基准测试中表现优异,不仅在对齐质量上超越了传统的Logits蒸馏方法,更在样本效率上实现了高达10倍的提升。实验结果证实,该方法在黑盒环境下依然能保持极高的训练稳定性,是目前实现高效、灵活模型蒸馏的最强基准之一。
🎯 应用场景
该方法适用于大语言模型的知识蒸馏与对齐,特别是在无法获取教师模型Logits的闭源API场景(如GPT-4等)中具有极高价值。它为企业级模型微调、开源模型性能提升以及多模型协作对齐提供了高效、低成本的解决方案,推动了模型蒸馏技术的民主化。
📄 摘要(原文)
On-policy distillation (OPD) is a powerful paradigm for model alignment, yet its reliance on teacher logits restricts its application to white-box scenarios. We contend that structured semantic rubrics can serve as a scalable alternative to teacher logits, enabling OPD using only teacher-generated responses. To prove it, we introduce ROPD, a simple yet foundational framework for rubric-based OPD. Specifically, ROPD induces prompt-specific rubrics from teacher-student contrasts, and then utilizes these rubrics to score the student rollouts for on-policy optimization. Empirically, ROPD outperforms the advanced logit-based OPD methods across most scenarios, and achieving up to a 10x gain in sample efficiency. These results position rubric-based OPD as a flexible, black-box-compatible alternative to the prevailing logit-based OPD, offering a simple yet strong baseline for scalable distillation across proprietary and open-source LLMs. Code is available at https://github.com/Peregrine123/ROPD_official.