Value-and-Structure Alignment for Routing-Consistent Quantization of Mixture-of-Experts Models
作者: Hancheol Park, Geonho Lee, Tairen Piao, Tae-Ho Kim
分类: cs.CL, cs.AI
发布日期: 2026-06-04
备注: 8 pages, 1 figure
💡 一句话要点
提出VSRAQ以解决MoE模型量化中的路由不一致问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 混合专家模型 后训练量化 路由一致性 值对齐 结构对齐 模型压缩 深度学习
📋 核心要点
- 现有的MoE模型在量化过程中面临路由不稳定性的问题,导致模型性能下降。
- 本文提出VSRAQ,通过值对齐和结构对齐来保持专家选择的一致性,解决量化引起的性能下降。
- 实验结果显示,VSRAQ在专家选择一致性上显著优于重建和路由感知的基线方法。
📝 摘要(中文)
混合专家(MoE)模型通过仅激活部分专家来高效扩展基础模型,但其大量专家参数使得量化在实际部署中变得至关重要。然而,与密集模型不同,MoE模型对路由不稳定性非常敏感:量化引起的小扰动可能改变前k个专家的选择,从而影响计算路径并降低模型质量。为此,本文提出了一种针对MoE的后训练量化目标——值与结构路由对齐量化(VSRAQ),旨在在量化过程中保持预量化的专家选择行为。VSRAQ结合了两个互补目标:值对齐和结构对齐,通过维护路由一致性,减少量化引起的性能下降,同时不增加推理时间开销,并可集成到现有的量化框架中。实验表明,VSRAQ在专家选择一致性上有显著提升,并且在与重建和路由感知基线的比较中表现优越。
🔬 方法详解
问题定义:本文旨在解决混合专家模型在量化过程中由于路由不稳定性导致的性能下降问题。现有方法在量化时未能有效保持专家选择的一致性,导致计算路径的变化。
核心思路:VSRAQ通过引入值对齐和结构对齐两个目标,确保在量化后仍能保持与预量化相同的专家选择行为。这样的设计旨在减少量化引起的性能损失,同时避免增加推理时间的开销。
技术框架:VSRAQ的整体架构包括两个主要模块:值对齐模块负责匹配与路由相关的logits或分数,结构对齐模块则确保专家的排序和前k个决策边界的保持。
关键创新:VSRAQ的核心创新在于其针对MoE模型的特定设计,结合了值和结构的双重对齐策略,与传统的量化方法相比,能够更好地保持专家选择的一致性。
关键设计:在损失函数的设计上,VSRAQ引入了专门针对路由一致性的损失项,确保在量化过程中能够有效地保持专家选择的稳定性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,VSRAQ在专家选择一致性上显著优于重建和路由感知的基线方法,具体表现为在多个MoE基础模型上均实现了性能提升,且未增加推理时间开销。
🎯 应用场景
该研究的潜在应用领域包括自然语言处理、计算机视觉等需要大规模模型的场景。通过提高MoE模型的量化性能,VSRAQ能够促进这些模型在资源受限环境中的实际部署,提升其应用价值和效率。
📄 摘要(原文)
Mixture-of-Experts (MoE) models scale foundation models efficiently by activating only a subset of experts for each token, but their large number of expert parameters still makes quantization essential for practical deployment. Unlike dense models, however, MoE models are sensitive to routing instability: small quantization-induced perturbations can change the top-$k$ expert selection, altering the computation path and degrading model quality. We propose Value-and-Structure Routing Alignment for Quantization (VSRAQ), a MoE-specific post-training quantization objective that preserves pre-quantization expert-selection behavior under quantization. VSRAQ combines two complementary objectives that jointly preserve expert-selection behavior: value alignment, which matches routing-relevant logits or scores, and structure alignment, which preserves expert ordering and top-$k$ decision boundaries. By maintaining routing consistency, VSRAQ reduces quantization-induced degradation without introducing any inference-time overhead and can be integrated into existing quantization frameworks. Experiments on recent MoE foundation models show that VSRAQ improves expert-selection consistency and consistently outperforms reconstruction-only and router-aware baselines.