ORPO-Distill: Mixed-Policy Preference Optimization for Cross-Architecture LLM Distillation

作者: Aasheesh Singh, Vishal Vaddina, Dagnachew Birru

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-09-29

备注: Accepted at NeurIPS 2025, Efficient Reasoning Workshop

💡 一句话要点

提出ORPO-Distill，通过混合策略偏好优化实现跨架构LLM蒸馏

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 知识蒸馏 大型语言模型 偏好优化 跨架构学习 模型压缩

📋 核心要点

现有CoT蒸馏方法在跨架构LLM蒸馏中存在局限性，难以有效利用多样化的推理轨迹。
ORPO-Distill通过Odds-Ratio偏好优化目标和混合策略，对比教师和学生轨迹，提升知识迁移效率。
实验结果表明，ORPO-Distill在多个数据集和学生模型上均优于传统黑盒知识蒸馏基线。

📝 摘要（中文）

本文提出了一种通用的跨架构LLM蒸馏方法ORPO-Distill，该方法将蒸馏问题建模为偏好优化任务。与标准的CoT蒸馏不同，该方法通过多样化的推理轨迹来传递知识。它采用了一种Odds-Ratio偏好优化目标，对比教师和学生的轨迹，以实现更有效的学习，并采用混合策略来利用学生生成的输出，优于离线和在线策略。在五个数据集和多个学生模型上的实验表明，该方法相对于传统的黑盒知识蒸馏基线具有一致的改进。

🔬 方法详解

问题定义：论文旨在解决跨架构大型语言模型（LLM）蒸馏的问题。现有的知识蒸馏方法，特别是CoT蒸馏，在学生模型架构与教师模型差异较大时，知识迁移效果不佳。CoT蒸馏通常依赖于单一的教师模型推理路径，无法充分利用教师模型的多样化推理能力，导致学生模型学习到的知识有限。

核心思路：论文的核心思路是将跨架构LLM蒸馏问题转化为一个偏好优化问题。通过比较教师模型和学生模型的推理轨迹，学习一个偏好模型，使得学生模型能够生成更符合教师模型偏好的输出。这种方法允许学生模型学习到教师模型的多样化推理策略，从而提高蒸馏效果。

技术框架：ORPO-Distill的整体框架包括以下几个主要步骤：1) 使用教师模型生成多个推理轨迹；2) 使用学生模型生成多个推理轨迹；3) 使用Odds-Ratio偏好优化目标，对比教师和学生模型的轨迹，训练一个偏好模型；4) 使用混合策略，结合学生模型自身的输出和偏好模型的输出，生成最终的输出。

关键创新：该方法最重要的技术创新点在于Odds-Ratio偏好优化目标和混合策略。Odds-Ratio偏好优化目标能够更有效地对比教师和学生模型的轨迹，从而提高偏好模型的准确性。混合策略能够充分利用学生模型自身的生成能力，避免过度依赖教师模型，从而提高蒸馏效果。与现有方法的本质区别在于，ORPO-Distill不是简单地模仿教师模型的输出，而是学习教师模型的偏好，从而实现更有效的知识迁移。

关键设计：Odds-Ratio偏好优化目标基于优势比（Odds Ratio）来衡量教师模型和学生模型轨迹的优劣。混合策略采用加权平均的方式，将学生模型自身的输出和偏好模型的输出进行融合。具体权重参数的选择需要根据实验结果进行调整。论文中没有明确提及具体的网络结构，但可以推断偏好模型可以使用Transformer等常见的序列模型。

📊 实验亮点

实验结果表明，ORPO-Distill在五个数据集上均优于传统的黑盒知识蒸馏基线。例如，在某些数据集上，ORPO-Distill相对于基线方法取得了显著的性能提升，具体提升幅度在多个学生模型上保持一致性。混合策略的使用也带来了额外的性能提升，证明了其有效性。

🎯 应用场景

ORPO-Distill可应用于各种需要模型压缩和加速的场景，例如移动设备上的LLM部署、边缘计算等。通过将大型教师模型的知识迁移到小型学生模型，可以在保证性能的同时降低计算成本和存储需求。该方法还有助于提高LLM在资源受限环境下的可用性，并促进LLM在更广泛领域的应用。

📄 摘要（原文）

We introduce ORPO-Distill, a general-purpose method for cross-architecture LLM distillation that formulates the problem as a preference optimization task. Unlike standard CoT distillation, the approach transfers knowledge through diverse reasoning traces. It employs an Odds-Ratio Preference Optimization objective that contrasts teacher and student traces for more effective learning, and adopts a mixed-policy strategy for utilizing student-generated outputs, outperforming both off- and on-policy alternatives. Experiments on five datasets and multiple student models show consistent improvements over conventional black-box KD baselines.

ORPO-Distill: Mixed-Policy Preference Optimization for Cross-Architecture LLM Distillation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册