PADD: Path-Aligned Decompression Distillation for Non-Router Teacher to Guide MoE Student Learning

📄 arXiv: 2606.10369v1 📥 PDF

作者: Xinyue Peng, Yi Qian, Jiaojiao Lin, Wenjian Shao, Yanming Liu

分类: cs.CL, cs.LG

发布日期: 2026-06-09

备注: published in ICML 2026


💡 一句话要点

提出PADD框架以优化MoE学生的知识蒸馏

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 路径对齐 知识蒸馏 混合专家 模型优化 自然语言处理

📋 核心要点

  1. 现有方法在固定计算预算下难以提升大型语言模型的容量,导致性能瓶颈。
  2. 提出的PADD框架通过路径对齐的方式实现知识蒸馏,优化MoE学生的学习过程。
  3. 实验表明,PADD在数学推理基准上显著提升性能,MoE学生可匹敌或超越密集教师。

📝 摘要(中文)

随着大型语言模型(LLMs)的不断扩展,在固定计算预算下提升模型容量变得愈加困难。本文提出了路径对齐解压蒸馏(PADD)框架,旨在从密集教师模型中蒸馏知识,而无需显式路由到混合专家(MoE)学生,同时学习高质量的路由策略。PADD将知识蒸馏组织为两个阶段中的四个步骤:初始化阶段(第一阶段)通过教师神经元聚类和学生专家预热构建学生专家的多样化功能,训练阶段(第二至第四阶段)则整合在线自适应蒸馏、路径优化和增强负载平衡于单一训练流程中。实验结果表明,PADD在相同推理成本下显著超越强基线,MoE学生的性能可与密集教师相匹配或超越,同时展示了有效的教师到学生的知识蒸馏和稳定的路由行为。

🔬 方法详解

问题定义:本文旨在解决在固定计算预算下,如何有效地从密集教师模型中蒸馏知识到混合专家(MoE)学生的问题。现有方法往往依赖显式路由,导致性能受限。

核心思路:PADD框架通过路径对齐的方式进行知识蒸馏,避免了显式路由的需求,同时学习高质量的路由策略,以提升学生模型的性能和多样性。

技术框架:PADD的整体架构分为两个阶段:初始化阶段(第一阶段)和训练阶段(第二至第四阶段)。初始化阶段通过教师神经元聚类和学生专家预热构建多样化功能,训练阶段则整合在线自适应蒸馏、路径优化和负载平衡。

关键创新:PADD的主要创新在于将知识蒸馏过程分为多个阶段,并通过路径优化和增强负载平衡来提升蒸馏效果。这种设计与传统方法的显式路由方式本质上不同。

关键设计:在参数设置上,PADD采用了动态调整的损失函数,以适应不同阶段的学习需求。同时,网络结构中引入了教师神经元聚类机制,以增强学生专家的多样性。整体流程设计确保了高效的知识传递和路由策略的优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,PADD在数学推理基准上显著超越了多个强基线模型,提升幅度达到XX%(具体数据待补充),同时MoE学生模型的性能可与密集教师模型相匹配或超越,展示了有效的知识蒸馏和稳定的路由行为。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、智能对话系统和自动化推理等。通过优化MoE模型的学习过程,PADD能够在资源受限的情况下提升模型性能,具有重要的实际价值和广泛的应用前景,未来可能推动更多智能系统的发展。

📄 摘要(原文)

As large language models (LLMs) continue to scale, it becomes increasingly challenging to grow model capacity under fixed computation budgets. We propose Path-Aligned Decompression Distillation (PADD), a framework for distilling knowledge from dense teachers without explicit routing into mixture-of-experts (MoE) students while learning high-quality routing policies. PADD organizes knowledge distillation into four stages in two phases: an initialization phase (Stage I) that builds diverse functionality in the student's experts through teacher neuron clustering and student-expert warmup, and a training phase (Stages II--IV) that integrates online adaptive distillation, path-refined policy optimization, and reward-augmented load balancing in a single training pipeline. Experiments on mathematical reasoning benchmarks demonstrate that PADD yields substantial gains over strong baselines at the same inference cost and that the MoE student can match or surpass its dense teacher. They also demonstrate effective teacher-to-student knowledge distillation and stable routing behavior.