ORPO-Distill: Mixed-Policy Preference Optimization for Cross-Architecture LLM Distillation

📄 arXiv: 2509.25100v1 📥 PDF

作者: Aasheesh Singh, Vishal Vaddina, Dagnachew Birru

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-09-29

备注: Accepted at NeurIPS 2025, Efficient Reasoning Workshop


💡 一句话要点

提出ORPO-Distill,通过混合策略偏好优化实现跨架构LLM蒸馏

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 大型语言模型 知识蒸馏 偏好优化 跨架构学习 模型压缩

📋 核心要点

  1. 现有CoT蒸馏方法在跨架构LLM蒸馏中存在局限性,无法充分利用多样化的推理轨迹。
  2. ORPO-Distill通过Odds-Ratio偏好优化目标和混合策略,对比教师和学生轨迹,提升知识迁移效率。
  3. 实验结果表明,ORPO-Distill在多个数据集和学生模型上均优于传统黑盒知识蒸馏基线。

📝 摘要(中文)

本文提出了一种通用的跨架构LLM蒸馏方法ORPO-Distill,该方法将蒸馏问题建模为偏好优化任务。与标准的CoT蒸馏不同,该方法通过多样化的推理轨迹来传递知识。它采用了一种Odds-Ratio偏好优化目标,对比教师和学生的轨迹,从而实现更有效的学习,并采用混合策略来利用学生生成的输出,优于离线和在线替代方案。在五个数据集和多个学生模型上的实验表明,该方法相对于传统的黑盒知识蒸馏基线具有一致的改进。

🔬 方法详解

问题定义:论文旨在解决跨架构大型语言模型(LLM)蒸馏的问题。现有的知识蒸馏方法,特别是基于链式思考(CoT)的蒸馏,在将知识从大型教师模型迁移到小型学生模型时,往往无法充分利用教师模型提供的多样化推理轨迹,导致学生模型学习效果受限。此外,如何有效利用学生模型自身生成的输出,也是一个挑战。

核心思路:论文的核心思路是将跨架构LLM蒸馏问题建模为一个偏好优化任务。通过对比教师模型和学生模型的推理轨迹,学习一个偏好模型,使得学生模型能够模仿教师模型的行为。同时,采用一种混合策略,结合教师模型和学生模型生成的输出,以提高学习效率和效果。

技术框架:ORPO-Distill的整体框架包括以下几个主要步骤:1) 使用教师模型生成多样化的推理轨迹;2) 使用学生模型生成相应的推理轨迹;3) 使用Odds-Ratio偏好优化目标,对比教师和学生的轨迹,训练一个偏好模型;4) 使用混合策略,结合教师模型和学生模型生成的输出,指导学生模型的学习。

关键创新:该方法最重要的技术创新点在于Odds-Ratio偏好优化目标和混合策略。Odds-Ratio偏好优化目标能够更有效地对比教师和学生的轨迹,从而提高学习效率。混合策略能够充分利用学生模型自身生成的输出,避免过度依赖教师模型,从而提高学习效果。与现有方法的本质区别在于,ORPO-Distill不是简单地模仿教师模型的输出,而是学习教师模型的推理过程和偏好。

关键设计:Odds-Ratio偏好优化目标的设计基于Odds-Ratio的概率解释,能够更准确地衡量教师和学生轨迹的优劣。混合策略的关键在于如何平衡教师模型和学生模型生成的输出。论文采用了一种动态调整的混合系数,根据学生模型的学习进度,自动调整教师模型和学生模型输出的权重。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,ORPO-Distill在五个数据集上均优于传统的黑盒知识蒸馏基线。例如,在某些数据集上,ORPO-Distill可以将学生模型的性能提升高达5个百分点。此外,实验还证明了Odds-Ratio偏好优化目标和混合策略的有效性,它们能够显著提高学生模型的学习效率和效果。

🎯 应用场景

ORPO-Distill具有广泛的应用前景,可用于各种需要模型压缩和加速的场景,例如移动设备上的自然语言处理、边缘计算和资源受限环境下的LLM部署。通过将大型LLM的知识迁移到小型模型,可以降低计算成本和延迟,提高用户体验,并促进LLM在更广泛领域的应用。

📄 摘要(原文)

We introduce ORPO-Distill, a general-purpose method for cross-architecture LLM distillation that formulates the problem as a preference optimization task. Unlike standard CoT distillation, the approach transfers knowledge through diverse reasoning traces. It employs an Odds-Ratio Preference Optimization objective that contrasts teacher and student traces for more effective learning, and adopts a mixed-policy strategy for utilizing student-generated outputs, outperforming both off- and on-policy alternatives. Experiments on five datasets and multiple student models show consistent improvements over conventional black-box KD baselines.