ORPO-Distill: Mixed-Policy Preference Optimization for Cross-Architecture LLM Distillation

作者: Aasheesh Singh, Vishal Vaddina, Dagnachew Birru

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-09-29

备注: Accepted at NeurIPS 2025, Efficient Reasoning Workshop

💡 一句话要点

提出ORPO-Distill，通过混合策略偏好优化实现跨架构LLM蒸馏

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 大型语言模型 知识蒸馏 偏好优化 跨架构学习 模型压缩

📋 核心要点

现有CoT蒸馏方法在跨架构LLM蒸馏中存在局限性，无法充分利用多样化的推理轨迹。
ORPO-Distill通过Odds-Ratio偏好优化目标和混合策略，对比教师和学生轨迹，提升知识迁移效率。
实验结果表明，ORPO-Distill在多个数据集和学生模型上均优于传统黑盒知识蒸馏基线。

📝 摘要（中文）

本文提出了一种通用的跨架构LLM蒸馏方法ORPO-Distill，该方法将蒸馏问题建模为偏好优化任务。与标准的CoT蒸馏不同，该方法通过多样化的推理轨迹来传递知识。它采用了一种Odds-Ratio偏好优化目标，对比教师和学生的轨迹，从而实现更有效的学习，并采用混合策略来利用学生生成的输出，优于离线和在线替代方案。在五个数据集和多个学生模型上的实验表明，该方法相对于传统的黑盒知识蒸馏基线具有一致的改进。

🔬 方法详解

问题定义：论文旨在解决跨架构大型语言模型（LLM）蒸馏的问题。现有的知识蒸馏方法，特别是基于链式思考（CoT）的蒸馏，在将知识从大型教师模型迁移到小型学生模型时，往往无法充分利用教师模型提供的多样化推理轨迹，导致学生模型学习效果受限。此外，如何有效利用学生模型自身生成的输出，也是一个挑战。

核心思路：论文的核心思路是将跨架构LLM蒸馏问题建模为一个偏好优化任务。通过对比教师模型和学生模型的推理轨迹，学习一个偏好模型，使得学生模型能够模仿教师模型的行为。同时，采用一种混合策略，结合教师模型和学生模型生成的输出，以提高学习效率和效果。

技术框架：ORPO-Distill的整体框架包括以下几个主要步骤：1) 使用教师模型生成多样化的推理轨迹；2) 使用学生模型生成相应的推理轨迹；3) 使用Odds-Ratio偏好优化目标，对比教师和学生的轨迹，训练一个偏好模型；4) 使用混合策略，结合教师模型和学生模型生成的输出，指导学生模型的学习。

关键创新：该方法最重要的技术创新点在于Odds-Ratio偏好优化目标和混合策略。Odds-Ratio偏好优化目标能够更有效地对比教师和学生的轨迹，从而提高学习效率。混合策略能够充分利用学生模型自身生成的输出，避免过度依赖教师模型，从而提高学习效果。与现有方法的本质区别在于，ORPO-Distill不是简单地模仿教师模型的输出，而是学习教师模型的推理过程和偏好。

关键设计：Odds-Ratio偏好优化目标的设计基于Odds-Ratio的概率解释，能够更准确地衡量教师和学生轨迹的优劣。混合策略的关键在于如何平衡教师模型和学生模型生成的输出。论文采用了一种动态调整的混合系数，根据学生模型的学习进度，自动调整教师模型和学生模型输出的权重。

🖼️ 关键图片

📊 实验亮点

实验结果表明，ORPO-Distill在五个数据集上均优于传统的黑盒知识蒸馏基线。例如，在某些数据集上，ORPO-Distill可以将学生模型的性能提升高达5个百分点。此外，实验还证明了Odds-Ratio偏好优化目标和混合策略的有效性，它们能够显著提高学生模型的学习效率和效果。

🎯 应用场景

ORPO-Distill具有广泛的应用前景，可用于各种需要模型压缩和加速的场景，例如移动设备上的自然语言处理、边缘计算和资源受限环境下的LLM部署。通过将大型LLM的知识迁移到小型模型，可以降低计算成本和延迟，提高用户体验，并促进LLM在更广泛领域的应用。

📄 摘要（原文）

We introduce ORPO-Distill, a general-purpose method for cross-architecture LLM distillation that formulates the problem as a preference optimization task. Unlike standard CoT distillation, the approach transfers knowledge through diverse reasoning traces. It employs an Odds-Ratio Preference Optimization objective that contrasts teacher and student traces for more effective learning, and adopts a mixed-policy strategy for utilizing student-generated outputs, outperforming both off- and on-policy alternatives. Experiments on five datasets and multiple student models show consistent improvements over conventional black-box KD baselines.

ORPO-Distill: Mixed-Policy Preference Optimization for Cross-Architecture LLM Distillation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理