Rubric-based On-policy Distillation

作者: Junfeng Fang, Zhepei Hong, Mao Zheng, Mingyang Song, Gengsheng Li, Houcheng Jiang, Dan Zhang, Haiyun Guo, Xiang Wang, Tat-Seng Chua

分类: cs.LG, cs.AI

发布日期: 2026-05-08

备注: Preprint. Code is available at https://github.com/Peregrine123/ROPD_official

🔗 代码/项目: GITHUB

💡 一句话要点

提出基于准则的在线策略蒸馏框架ROPD，实现黑盒模型的高效对齐

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 在线策略蒸馏 模型对齐 黑盒蒸馏 大语言模型 强化学习 知识蒸馏

📋 核心要点

现有在线策略蒸馏方法高度依赖教师模型的Logits输出，导致其无法应用于闭源或黑盒模型场景。
ROPD框架通过对比教师与学生响应，自动诱导生成语义准则，并利用该准则对学生采样进行评分以指导优化。
实验证明ROPD在性能上超越了主流Logits蒸馏方法，并在样本效率上实现了最高10倍的显著提升。

📝 摘要（中文）

在线策略蒸馏（OPD）是模型对齐的强大范式，但其对教师模型Logits的依赖限制了其在黑盒场景下的应用。本文提出结构化语义准则（Rubrics）可作为教师Logits的可扩展替代方案，仅需教师生成的响应即可实现OPD。为此，我们引入了ROPD框架，通过教师与学生响应的对比诱导生成提示词特定的准则，并利用这些准则对学生输出进行评分，从而指导在线策略优化。实验表明，ROPD在多数场景下优于先进的基于Logits的OPD方法，样本效率提升高达10倍。该研究证明了基于准则的OPD是黑盒兼容的灵活替代方案，为专有模型与开源大模型间的可扩展蒸馏提供了强有力的基准。

🔬 方法详解

问题定义：现有在线策略蒸馏（OPD）方法通常要求获取教师模型的Logits（概率分布），这在闭源API或黑盒模型场景下无法实现，限制了知识蒸馏的通用性。

核心思路：引入“语义准则（Rubrics）”作为中间媒介，替代Logits。通过分析教师与学生输出的差异，自动构建评估准则，将黑盒蒸馏转化为基于奖励的强化学习过程。

技术框架：ROPD包含两个核心阶段：首先是准则诱导阶段，通过对比教师与学生的响应生成结构化评估标准；其次是策略优化阶段，利用生成的准则对学生模型的Rollouts进行打分，通过在线策略优化算法更新学生模型。

关键创新：核心创新在于将“Logits匹配”范式转变为“准则引导”范式。该方法不依赖模型内部概率，仅需文本响应即可实现对齐，极大地扩展了蒸馏技术的适用范围。

关键设计：采用了基于提示词的准则生成机制，通过对比学习提取关键评价维度；在优化过程中，利用这些准则作为奖励函数（Reward Function），引导学生模型在在线采样中不断逼近教师的响应质量。

🖼️ 关键图片

📊 实验亮点

ROPD在多项基准测试中表现优异，不仅在对齐质量上超越了传统的Logits蒸馏方法，更在样本效率上实现了高达10倍的提升。实验结果证实，该方法在黑盒环境下依然能保持极高的训练稳定性，是目前实现高效、灵活模型蒸馏的最强基准之一。

🎯 应用场景

该方法适用于大语言模型的知识蒸馏与对齐，特别是在无法获取教师模型Logits的闭源API场景（如GPT-4等）中具有极高价值。它为企业级模型微调、开源模型性能提升以及多模型协作对齐提供了高效、低成本的解决方案，推动了模型蒸馏技术的民主化。

📄 摘要（原文）

On-policy distillation (OPD) is a powerful paradigm for model alignment, yet its reliance on teacher logits restricts its application to white-box scenarios. We contend that structured semantic rubrics can serve as a scalable alternative to teacher logits, enabling OPD using only teacher-generated responses. To prove it, we introduce ROPD, a simple yet foundational framework for rubric-based OPD. Specifically, ROPD induces prompt-specific rubrics from teacher-student contrasts, and then utilizes these rubrics to score the student rollouts for on-policy optimization. Empirically, ROPD outperforms the advanced logit-based OPD methods across most scenarios, and achieving up to a 10x gain in sample efficiency. These results position rubric-based OPD as a flexible, black-box-compatible alternative to the prevailing logit-based OPD, offering a simple yet strong baseline for scalable distillation across proprietary and open-source LLMs. Code is available at https://github.com/Peregrine123/ROPD_official.

Rubric-based On-policy Distillation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理