ORPO-Distill: Mixed-Policy Preference Optimization for Cross-Architecture LLM Distillation
作者: Aasheesh Singh, Vishal Vaddina, Dagnachew Birru
分类: cs.LG, cs.AI, cs.CL
发布日期: 2025-09-29
备注: Accepted at NeurIPS 2025, Efficient Reasoning Workshop
💡 一句话要点
提出ORPO-Distill,通过混合策略偏好优化实现跨架构LLM蒸馏
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 知识蒸馏 大型语言模型 偏好优化 跨架构学习 模型压缩
📋 核心要点
- 现有CoT蒸馏方法在跨架构LLM蒸馏中存在局限性,难以有效利用多样化的推理轨迹。
- ORPO-Distill通过Odds-Ratio偏好优化目标和混合策略,对比教师和学生轨迹,提升知识迁移效率。
- 实验结果表明,ORPO-Distill在多个数据集和学生模型上均优于传统黑盒知识蒸馏基线。
📝 摘要(中文)
本文提出了一种通用的跨架构LLM蒸馏方法ORPO-Distill,该方法将蒸馏问题建模为偏好优化任务。与标准的CoT蒸馏不同,该方法通过多样化的推理轨迹来传递知识。它采用了一种Odds-Ratio偏好优化目标,对比教师和学生的轨迹,以实现更有效的学习,并采用混合策略来利用学生生成的输出,优于离线和在线策略。在五个数据集和多个学生模型上的实验表明,该方法相对于传统的黑盒知识蒸馏基线具有一致的改进。
🔬 方法详解
问题定义:论文旨在解决跨架构大型语言模型(LLM)蒸馏的问题。现有的知识蒸馏方法,特别是CoT蒸馏,在学生模型架构与教师模型差异较大时,知识迁移效果不佳。CoT蒸馏通常依赖于单一的教师模型推理路径,无法充分利用教师模型的多样化推理能力,导致学生模型学习到的知识有限。
核心思路:论文的核心思路是将跨架构LLM蒸馏问题转化为一个偏好优化问题。通过比较教师模型和学生模型的推理轨迹,学习一个偏好模型,使得学生模型能够生成更符合教师模型偏好的输出。这种方法允许学生模型学习到教师模型的多样化推理策略,从而提高蒸馏效果。
技术框架:ORPO-Distill的整体框架包括以下几个主要步骤:1) 使用教师模型生成多个推理轨迹;2) 使用学生模型生成多个推理轨迹;3) 使用Odds-Ratio偏好优化目标,对比教师和学生模型的轨迹,训练一个偏好模型;4) 使用混合策略,结合学生模型自身的输出和偏好模型的输出,生成最终的输出。
关键创新:该方法最重要的技术创新点在于Odds-Ratio偏好优化目标和混合策略。Odds-Ratio偏好优化目标能够更有效地对比教师和学生模型的轨迹,从而提高偏好模型的准确性。混合策略能够充分利用学生模型自身的生成能力,避免过度依赖教师模型,从而提高蒸馏效果。与现有方法的本质区别在于,ORPO-Distill不是简单地模仿教师模型的输出,而是学习教师模型的偏好,从而实现更有效的知识迁移。
关键设计:Odds-Ratio偏好优化目标基于优势比(Odds Ratio)来衡量教师模型和学生模型轨迹的优劣。混合策略采用加权平均的方式,将学生模型自身的输出和偏好模型的输出进行融合。具体权重参数的选择需要根据实验结果进行调整。论文中没有明确提及具体的网络结构,但可以推断偏好模型可以使用Transformer等常见的序列模型。
📊 实验亮点
实验结果表明,ORPO-Distill在五个数据集上均优于传统的黑盒知识蒸馏基线。例如,在某些数据集上,ORPO-Distill相对于基线方法取得了显著的性能提升,具体提升幅度在多个学生模型上保持一致性。混合策略的使用也带来了额外的性能提升,证明了其有效性。
🎯 应用场景
ORPO-Distill可应用于各种需要模型压缩和加速的场景,例如移动设备上的LLM部署、边缘计算等。通过将大型教师模型的知识迁移到小型学生模型,可以在保证性能的同时降低计算成本和存储需求。该方法还有助于提高LLM在资源受限环境下的可用性,并促进LLM在更广泛领域的应用。
📄 摘要(原文)
We introduce ORPO-Distill, a general-purpose method for cross-architecture LLM distillation that formulates the problem as a preference optimization task. Unlike standard CoT distillation, the approach transfers knowledge through diverse reasoning traces. It employs an Odds-Ratio Preference Optimization objective that contrasts teacher and student traces for more effective learning, and adopts a mixed-policy strategy for utilizing student-generated outputs, outperforming both off- and on-policy alternatives. Experiments on five datasets and multiple student models show consistent improvements over conventional black-box KD baselines.