MoBiE: Efficient Inference of Mixture of Binary Experts under Post-Training Quantization
作者: Zhixiong Zhao, Zukang Xu, Zhixuan Chen, Dawei Yang
分类: cs.LG, cs.AI
发布日期: 2026-04-08
备注: Accepted at ACL 2026 Findings
🔗 代码/项目: GITHUB
💡 一句话要点
提出MoBiE以解决MoE模型量化效率问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 混合专家 二值化 后训练量化 自然语言处理 模型优化
📋 核心要点
- 现有的二值化方法在处理MoE模型时面临跨专家冗余和量化引起的路由偏移等挑战,导致效率低下。
- 本文提出MoBiE框架,通过联合SVD分解、全局损失梯度整合和误差约束等创新手段,优化MoE模型的二值化过程。
- 实验结果显示,MoBiE在Qwen3-30B-A3B模型上将困惑度降低52.2%,零-shot性能提升43.4%,推理速度提升超过2倍。
📝 摘要(中文)
基于混合专家(MoE)的语言模型在性能上表现优异,但在内存和计算成本上存在较大挑战。现有的权重二值化方法在处理MoE特有问题时效果不佳,如跨专家冗余、任务无关的重要性估计及量化引起的路由偏移。为此,本文提出了MoBiE,这是首个专为MoE设计的二值化框架。MoBiE通过三项核心创新实现了高效优化:1. 使用联合SVD分解减少跨专家冗余;2. 将全局损失梯度整合到局部Hessian度量中以增强权重重要性估计;3. 引入基于输入零空间的误差约束以减轻路由失真。实验表明,MoBiE在多个MoE模型和基准测试中均优于现有的二值化方法。
🔬 方法详解
问题定义:本文旨在解决混合专家(MoE)模型在后训练量化过程中面临的效率和性能问题,现有的二值化方法在处理MoE特有的冗余和路由偏移时效果不佳。
核心思路:MoBiE框架通过引入联合SVD分解、全局损失梯度和误差约束等技术,旨在提高MoE模型的二值化效率,同时保持模型性能。
技术框架:MoBiE的整体架构包括三个主要模块:1. 联合SVD分解模块用于减少跨专家冗余;2. 全局损失梯度整合模块用于提升权重重要性估计;3. 误差约束模块用于减轻路由失真。
关键创新:MoBiE的核心创新在于其针对MoE模型的特定设计,尤其是在权重重要性估计和路由稳定性方面,与现有方法相比,显著提升了效率和准确性。
关键设计:在参数设置上,MoBiE采用了联合SVD分解技术,损失函数结合了全局和局部信息,网络结构上则引入了基于输入零空间的误差约束,以确保路由的稳定性。
🖼️ 关键图片
📊 实验亮点
在Qwen3-30B-A3B模型上,MoBiE显著降低了52.2%的困惑度,提升了43.4%的平均零-shot性能,并实现了超过2倍的推理速度提升,进一步缩短了量化时间,展现出优越的性能。
🎯 应用场景
MoBiE框架在自然语言处理、机器翻译和对话系统等领域具有广泛的应用潜力。通过提高MoE模型的推理效率和性能,MoBiE能够为大规模语言模型的实际应用提供更高的性价比,推动相关技术的进一步发展。
📄 摘要(原文)
Mixture-of-Experts (MoE) based large language models (LLMs) offer strong performance but suffer from high memory and computation costs. Weight binarization provides extreme efficiency, yet existing binary methods designed for dense LLMs struggle with MoE-specific issues, including cross-expert redundancy, task-agnostic importance estimation, and quantization-induced routing shifts. To this end, we propose MoBiE, the first binarization framework tailored for MoE-based LLMs. MoBiE is built on three core innovations: 1. using joint SVD decomposition to reduce cross-expert redundancy; 2. integrating global loss gradients into local Hessian metrics to enhance weight importance estimation; 3. introducing an error constraint guided by the input null space to mitigate routing distortion. Notably, MoBiE achieves these optimizations while incurring no additional storage overhead, striking a balance between efficiency and model performance. Extensive experiments demonstrate that MoBiE consistently outperforms state-of-the-art binary methods across multiple MoE-based LLMs and benchmarks. For example, on Qwen3-30B-A3B, MoBiE reduces perplexity by 52.2$\%$, improves average zero-shot performance by 43.4$\%$, achieves over 2 $\times$ inference speedup, and further shortens quantization time. The code is available at https://github.com/Kishon-zzx/MoBiE.