Temporally Extended Mixture-of-Experts Models
作者: Zeyu Shen, Peter Henderson
分类: cs.LG
发布日期: 2026-04-22
💡 一句话要点
提出时序扩展混合专家模型以解决GPU内存限制问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 混合专家模型 强化学习 选项框架 内存优化 模型切换 自蒸馏 低秩适配器 持续学习
📋 核心要点
- 现有混合专家模型在GPU内存不足时,频繁切换专家导致优化手段失效,影响性能。
- 论文提出将强化学习中的选项框架应用于混合专家模型,设计时序扩展专家层以优化切换策略。
- 实验结果显示,切换率显著降低至5%以下,同时保持高达90%的基模型准确率,展示了方法的有效性。
📝 摘要(中文)
混合专家模型因其在固定推理速度下扩展能力而受到广泛关注,但在模型超出可用GPU内存时,频繁切换专家会使得优化手段如卸载和预取失效。本文提出将强化学习中的选项框架应用于此问题,设计了时序扩展混合专家层。通过在每层添加控制器,学习何时切换专家集及加载哪些专家,实验表明该方法在gpt-oss-20b模型上将切换率从50%以上降低至5%以下,同时在MATH、MMLU和MMMLU任务上保持了90%的基模型准确率。这表明现有预训练模型可以通过轻量级训练转化为时序扩展的混合专家模型,提供了在内存高效服务和持续学习中的新路径。
🔬 方法详解
问题定义:本文旨在解决混合专家模型在GPU内存不足时频繁切换专家的问题,导致的性能下降和优化手段失效。
核心思路:通过引入强化学习中的选项框架,设计时序扩展混合专家层,增加控制器以学习切换专家集的时机和选择,从而减少切换频率。
技术框架:整体架构包括多个时序扩展混合专家层,每层配备控制器,控制器负责根据当前任务动态选择和加载专家。
关键创新:最重要的创新在于将选项框架与混合专家模型结合,允许模型在保持高性能的同时,显著降低专家切换率。
关键设计:在每层中,控制器的设计考虑了决策成本,损失函数结合自蒸馏奖励,确保模型在切换率和能力之间进行有效权衡。通过低秩适配器实现轻量级训练。
🖼️ 关键图片
📊 实验亮点
实验结果显示,采用时序扩展混合专家模型后,切换率从50%以上降低至5%以下,同时在MATH、MMLU和MMMLU任务上保持高达90%的基模型准确率,展现了显著的性能提升。
🎯 应用场景
该研究的潜在应用领域包括大规模语言模型、智能助手和实时决策系统等。通过优化混合专家模型的内存使用,能够在资源受限的环境中实现更高效的推理和学习,具有重要的实际价值和未来影响。
📄 摘要(原文)
Mixture-of-Experts models, now popular for scaling capacity at fixed inference speed, switch experts at nearly every token. Once a model outgrows available GPU memory, this churn can render optimizations like offloading and pre-fetching ineffective. We make the case that the options framework in reinforcement learning is a perfect match to tackle this problem, and argue for temporally extended mixture-of-experts layers. Building on the option-critic framework with deliberation costs, we add a controller to each layer that learns when to switch expert sets and which to load. By applying this to gpt-oss-20b with low-rank adapters and a self-distillation reward, our method reduces switch rates from over 50% to below 5% while retaining up to 90% of base-model accuracy on MATH, MMLU, and MMMLU. This shows that even existing pre-trained models can be converted to temporally extended MoEs with lightweight training, with the deliberation cost allowing model trainers to trade off switching rates against capability. We hope this opens a principled path, grounded in the options framework, for memory-efficient serving and continual learning in ever-growing MoE models.