VisMMOE: Exploiting Visual-Expert Affinity for Efficient Visual-Language MoE Offloading

📄 arXiv: 2605.05899v1 📥 PDF

作者: Cheng Xu, Xiaofeng Hou, Jiacheng Liu, Chao Li

分类: cs.LG

发布日期: 2026-05-07


💡 一句话要点

提出VisMMoE系统,通过视觉-专家亲和性优化实现高效视觉-语言混合专家模型卸载

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 混合专家模型 模型卸载 Token剪枝 内存优化 多模态推理 系统架构

📋 核心要点

  1. 现有MoE卸载系统多针对文本设计,面对视觉Token带来的高频、不可预测的专家访问模式时,内存调度效率低下。
  2. VisMMoE利用“视觉-专家亲和性”原理,通过剪枝冗余视觉Token来优化专家访问分布,实现更小且可预测的专家工作集。
  3. 该系统通过集成Token压缩、前瞻预测与流水线编排,在内存受限环境下将端到端推理性能提升至多2.68倍。

📝 摘要(中文)

大规模视觉-语言混合专家模型(VL-MoE)具备强大的多模态能力,但在内存受限的平台上部署面临巨大挑战。现有的MoE卸载系统主要针对文本中心型工作负载设计,在处理视觉密集型输入时效率显著下降,因为大量的视觉Token会导致专家访问范围更广且难以预测。本文提出了VisMMoE,这是一个基于“视觉-专家亲和性”洞察的VL-MoE卸载系统。该系统通过剪枝冗余视觉Token,不仅减少了计算量,还重塑了专家需求,使专家访问在层内更集中、跨层更稳定,从而形成更小且可预测的专家工作集。VisMMoE结合了亲和感知Token压缩、前瞻性专家预测以及缓存/流水线编排,在严格的内存预算下显著提升了专家局部性和预取效率。实验表明,VisMMoE在多个框架和模型上实现了高达2.68倍的端到端推理性能提升,同时保持了极具竞争力的准确性。

🔬 方法详解

问题定义:论文旨在解决VL-MoE模型在内存受限设备上部署时的性能瓶颈。现有卸载方案在处理视觉输入时,由于视觉Token数量庞大且专家路由分布离散,导致缓存命中率低、预取延迟高,无法满足实时推理需求。

核心思路:核心洞察在于“视觉-专家亲和性”。研究发现,通过剪枝冗余的视觉Token,可以有效过滤掉对专家选择贡献较小的噪声信息,从而使剩余Token对专家的访问需求更加集中和稳定,降低了专家工作集的规模。

技术框架:VisMMoE包含三个核心模块:一是亲和感知Token压缩模块,负责动态筛选关键视觉Token;二是前瞻专家预测模块,基于压缩后的Token序列预判后续层所需的专家;三是缓存与流水线编排模块,负责根据预测结果高效调度专家权重至GPU内存。

关键创新:最大的创新在于将Token剪枝与MoE卸载策略深度耦合。不同于传统的仅关注计算加速的剪枝,VisMMoE将剪枝视为一种重塑内存访问模式的系统优化手段,实现了计算效率与内存调度效率的双重提升。

关键设计:系统采用了轻量级的前瞻预测器来减少推理开销,并设计了基于亲和性分数的Token重要性评估机制。在流水线编排中,通过精细化的缓存替换策略,确保高频专家始终驻留在高速缓存中,最大限度减少了从CPU到GPU的内存传输开销。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VisMMoE在多个主流VL-MoE模型及基准测试中表现优异。实验结果显示,相比现有的强基线系统,VisMMoE在保持模型准确率几乎不变的前提下,端到端推理性能最高提升了2.68倍,在不同内存预算约束下均展现出极高的鲁棒性与调度效率。

🎯 应用场景

该研究主要应用于边缘计算、移动端设备及资源受限的云端服务器,旨在推动大规模多模态大模型(如LLaVA等MoE变体)在实际生产环境中的高效部署,特别适用于对实时性要求较高的视觉问答、图像描述及多模态交互场景。

📄 摘要(原文)

Large-scale vision-language mixture-of-experts (VL-MoE) models provide strong multimodal capability, but efficient deployment on memory-constrained platforms remains difficult. Existing MoE offloading systems are largely designed for text-centric workloads and become much less effective for visual-heavy inputs, where large numbers of visual tokens induce broader and less predictable expert accesses. We present VisMMoE, a VL-MoE offloading system built on a single systems insight: pruning redundant visual tokens can improve offloading not only by reducing computation, but also by reshaping expert demand. We refer to this effect as \textit{visual-expert affinity}: token pruning makes expert accesses more concentrated within layers and more stable across layers, producing a smaller and more predictable expert working set. Guided by this insight, VisMMoE combines affinity-aware token compression, lookahead expert prediction, and cache/pipeline orchestration to improve expert locality and prefetch effectiveness under tight memory budgets. We implement VisMMoE on multiple frameworks and evaluate it on representative VL-MoE models and benchmarks. VisMMoE improves end-to-end inference performance by up to 2.68x and 1.61x, respectively, over strong baselines for today's VL-MoE deployments while maintaining competitive accuracy.