VisMMOE: Exploiting Visual-Expert Affinity for Efficient Visual-Language MoE Offloading

作者: Cheng Xu, Xiaofeng Hou, Jiacheng Liu, Chao Li

分类: cs.LG

发布日期: 2026-05-07

💡 一句话要点

提出VisMMoE系统，通过视觉-专家亲和性优化实现高效视觉-语言混合专家模型卸载

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 混合专家模型 模型卸载 Token剪枝 内存优化 多模态推理 系统架构

📋 核心要点

现有MoE卸载系统多针对文本设计，面对视觉Token带来的高频、不可预测的专家访问模式时，内存调度效率低下。
VisMMoE利用“视觉-专家亲和性”原理，通过剪枝冗余视觉Token来优化专家访问分布，实现更小且可预测的专家工作集。
该系统通过集成Token压缩、前瞻预测与流水线编排，在内存受限环境下将端到端推理性能提升至多2.68倍。

📝 摘要（中文）

大规模视觉-语言混合专家模型（VL-MoE）具备强大的多模态能力，但在内存受限的平台上部署面临巨大挑战。现有的MoE卸载系统主要针对文本中心型工作负载设计，在处理视觉密集型输入时效率显著下降，因为大量的视觉Token会导致专家访问范围更广且难以预测。本文提出了VisMMoE，这是一个基于“视觉-专家亲和性”洞察的VL-MoE卸载系统。该系统通过剪枝冗余视觉Token，不仅减少了计算量，还重塑了专家需求，使专家访问在层内更集中、跨层更稳定，从而形成更小且可预测的专家工作集。VisMMoE结合了亲和感知Token压缩、前瞻性专家预测以及缓存/流水线编排，在严格的内存预算下显著提升了专家局部性和预取效率。实验表明，VisMMoE在多个框架和模型上实现了高达2.68倍的端到端推理性能提升，同时保持了极具竞争力的准确性。

🔬 方法详解

问题定义：论文旨在解决VL-MoE模型在内存受限设备上部署时的性能瓶颈。现有卸载方案在处理视觉输入时，由于视觉Token数量庞大且专家路由分布离散，导致缓存命中率低、预取延迟高，无法满足实时推理需求。

核心思路：核心洞察在于“视觉-专家亲和性”。研究发现，通过剪枝冗余的视觉Token，可以有效过滤掉对专家选择贡献较小的噪声信息，从而使剩余Token对专家的访问需求更加集中和稳定，降低了专家工作集的规模。

技术框架：VisMMoE包含三个核心模块：一是亲和感知Token压缩模块，负责动态筛选关键视觉Token；二是前瞻专家预测模块，基于压缩后的Token序列预判后续层所需的专家；三是缓存与流水线编排模块，负责根据预测结果高效调度专家权重至GPU内存。

关键创新：最大的创新在于将Token剪枝与MoE卸载策略深度耦合。不同于传统的仅关注计算加速的剪枝，VisMMoE将剪枝视为一种重塑内存访问模式的系统优化手段，实现了计算效率与内存调度效率的双重提升。

关键设计：系统采用了轻量级的前瞻预测器来减少推理开销，并设计了基于亲和性分数的Token重要性评估机制。在流水线编排中，通过精细化的缓存替换策略，确保高频专家始终驻留在高速缓存中，最大限度减少了从CPU到GPU的内存传输开销。

🖼️ 关键图片

📊 实验亮点

VisMMoE在多个主流VL-MoE模型及基准测试中表现优异。实验结果显示，相比现有的强基线系统，VisMMoE在保持模型准确率几乎不变的前提下，端到端推理性能最高提升了2.68倍，在不同内存预算约束下均展现出极高的鲁棒性与调度效率。

🎯 应用场景

该研究主要应用于边缘计算、移动端设备及资源受限的云端服务器，旨在推动大规模多模态大模型（如LLaVA等MoE变体）在实际生产环境中的高效部署，特别适用于对实时性要求较高的视觉问答、图像描述及多模态交互场景。

📄 摘要（原文）

Large-scale vision-language mixture-of-experts (VL-MoE) models provide strong multimodal capability, but efficient deployment on memory-constrained platforms remains difficult. Existing MoE offloading systems are largely designed for text-centric workloads and become much less effective for visual-heavy inputs, where large numbers of visual tokens induce broader and less predictable expert accesses. We present VisMMoE, a VL-MoE offloading system built on a single systems insight: pruning redundant visual tokens can improve offloading not only by reducing computation, but also by reshaping expert demand. We refer to this effect as \textit{visual-expert affinity}: token pruning makes expert accesses more concentrated within layers and more stable across layers, producing a smaller and more predictable expert working set. Guided by this insight, VisMMoE combines affinity-aware token compression, lookahead expert prediction, and cache/pipeline orchestration to improve expert locality and prefetch effectiveness under tight memory budgets. We implement VisMMoE on multiple frameworks and evaluate it on representative VL-MoE models and benchmarks. VisMMoE improves end-to-end inference performance by up to 2.68x and 1.61x, respectively, over strong baselines for today's VL-MoE deployments while maintaining competitive accuracy.

VisMMOE: Exploiting Visual-Expert Affinity for Efficient Visual-Language MoE Offloading

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理