ROMER: Expert Replacement and Router Calibration for Robust MoE LLMs on Analog Compute-in-Memory Systems
作者: Wenyong Zhou, Yuannuo Feng, Yizhe Chen, Taiqiang Wu, Wendong Xu, Wenbo Qi, Zhengwu Liu, Wang Kang, Ngai Wong
分类: cs.LG, cs.CL
发布日期: 2026-05-12
备注: 11 pages, 5 figures, 4 tables
💡 一句话要点
ROMER:面向模拟存内计算MoE LLM的专家替换与路由校准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 混合专家模型 存内计算 硬件噪声 模型校准 专家替换 路由校准 后训练 大语言模型
📋 核心要点
- MoE LLM在CIM上的部署受限于模拟硬件噪声,导致专家负载失衡和路由决策次优。
- ROMER通过专家替换恢复负载平衡,并利用百分位归一化校准路由logits,稳定噪声环境下的路由。
- 实验表明,ROMER在多种MoE模型上显著降低了困惑度,验证了其有效性和泛化能力。
📝 摘要(中文)
大规模语言模型(LLM)中的混合专家(MoE)架构通过稀疏地激活每个token的专家子集来实现卓越的可扩展性。然而,频繁的专家切换会产生内存带宽瓶颈,而存内计算(CIM)架构非常适合缓解这一问题。但是,模拟CIM系统存在固有的硬件缺陷,会扰乱存储的权重。本文首次对噪声模型下的MoE LLM进行了系统研究,该噪声模型通过真实的芯片测量进行校准,揭示了硬件噪声严重扰乱了专家负载平衡,并导致干净训练的路由决策始终次优。基于这些发现,我们提出了ROMER,一个后训练校准框架,它(1)用高频专家替换未充分激活的专家,以恢复负载平衡,以及(2)通过基于百分位数的归一化重新校准路由器logits,以稳定噪声下的路由。在多个基准测试中进行的大量实验表明,对于DeepSeek-MoE、Qwen-MoE和OLMoE,在真实芯片噪声条件下,ROMER分别实现了高达58.6%、58.8%和59.8%的困惑度降低,从而确立了其在各种MoE架构中的有效性和通用性。
🔬 方法详解
问题定义:论文旨在解决模拟存内计算(CIM)系统中,硬件噪声对混合专家(MoE)架构的大型语言模型(LLM)性能的负面影响。具体来说,硬件噪声会导致专家负载不平衡,使得某些专家利用率过低,而另一些专家则过载。此外,噪声还会干扰路由器的决策,导致原本在干净环境下训练良好的路由策略变得次优。现有方法没有充分考虑CIM硬件噪声对MoE LLM的影响,因此无法有效解决这些问题。
核心思路:ROMER的核心思路是通过后训练校准来缓解硬件噪声对MoE LLM的影响。它包含两个关键步骤:专家替换和路由校准。专家替换旨在通过将利用率低的专家替换为利用率高的专家来恢复负载平衡。路由校准则通过调整路由器logits来稳定噪声环境下的路由决策。这种方法的核心在于,它不需要重新训练整个模型,而是通过轻量级的校准过程来适应噪声环境。
技术框架:ROMER是一个后训练校准框架,主要包含两个阶段:专家替换和路由校准。首先,对模型进行推理,统计每个专家的激活频率。然后,根据激活频率,将利用率低于阈值的专家替换为利用率高于阈值的专家。替换完成后,对路由器logits进行校准,使用基于百分位数的归一化方法来调整logits的分布,从而稳定路由决策。整个过程不需要重新训练模型,可以在较短的时间内完成。
关键创新:ROMER的关键创新在于它针对模拟CIM系统中的硬件噪声,提出了专家替换和路由校准两种策略。专家替换通过恢复负载平衡来提高模型性能,而路由校准则通过稳定路由决策来增强模型的鲁棒性。与现有方法相比,ROMER能够更有效地缓解硬件噪声对MoE LLM的影响。
关键设计:专家替换的关键在于选择合适的专家进行替换。论文使用激活频率作为衡量专家利用率的指标,并设置阈值来确定需要替换的专家。路由校准的关键在于选择合适的归一化方法。论文使用基于百分位数的归一化方法,该方法能够有效地调整logits的分布,从而稳定路由决策。具体的百分位数值需要根据实验结果进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ROMER在DeepSeek-MoE、Qwen-MoE和OLMoE等多种MoE模型上均取得了显著的性能提升。在真实芯片噪声条件下,ROMER分别实现了高达58.6%、58.8%和59.8%的困惑度降低。这些结果表明,ROMER能够有效地缓解硬件噪声对MoE LLM的影响,并具有良好的泛化能力。
🎯 应用场景
ROMER的研究成果可应用于在模拟存内计算(CIM)系统上部署大规模语言模型(LLM)。通过提高MoE LLM在噪声环境下的鲁棒性,ROMER能够降低硬件成本,提高能效,并加速LLM在边缘设备上的部署。这对于资源受限的应用场景,如移动设备、物联网设备和自动驾驶系统等,具有重要的实际价值和潜在影响。
📄 摘要(原文)
Large language models (LLMs) with mixture-of-experts (MoE) architectures achieve remarkable scalability by sparsely activating a subset of experts per token, yet their frequent expert switching creates memory bandwidth bottlenecks that compute-in-memory (CIM) architectures are well-suited to mitigate. However, analog CIM systems suffer from inherent hardware imperfections that perturb stored weights, and its negative impact on MoE-based LLMs in noisy CIM environments remains unexplored. In this work, we present the first systematic investigation of MoE-based LLMs under noise model calibrated with real chip measurements, revealing that hardware noise critically disrupts expert load balance and renders clean-trained routing decisions consistently suboptimal. Based on these findings, we propose ROMER, a post-training calibration framework that (1) replaces underactivated experts with high-frequency ones to restore load balance, and (2) recalibrates router logits via percentile-based normalization to stabilize routing under noise. Extensive experiments across multiple benchmarks demonstrate that ROMER achieves up to 58.6\%, 58.8\%, and 59.8\% reduction in perplexity under real-chip noise conditions for DeepSeek-MoE, Qwen-MoE, and OLMoE, respectively, establishing its effectiveness and generalizability across diverse MoE architectures.