SMoES: Soft Modality-Guided Expert Specialization in MoE-VLMs

作者: Zi-Hao Bo, Yaqian Li, Anzhou Hou, Rinyoichi Takezoe, Ertao Zhao, Tianxiang Pan, Jiale Yan, Mo Guang, Kaiwen Long

分类: cs.CV

发布日期: 2026-04-27

备注: CVPR 2026

💡 一句话要点

提出SMoES，通过模态引导专家特化提升MoE-VLM的性能与效率

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 混合专家模型 视觉语言模型 模态融合 专家路由 专家特化 互信息正则化 软模态引导

📋 核心要点

现有MoE-VLM路由策略缺乏对层依赖模态融合模式的考虑，专家特化指导不足。
SMoES利用动态软模态分数捕获层依赖的模态融合模式，并结合专家分箱和互信息正则化。
实验表明，SMoES在多模态和语言任务上均有提升，并显著降低了通信开销，提高了吞吐量。

📝 摘要（中文）

混合专家模型(MoE)已成为大型视觉语言模型(VLM)的常用骨干网络，但模态特定信号应如何指导专家路由仍未得到充分研究。现有的路由策略要么是手工设计的，要么是模态无关的，依赖于理想化的先验知识，忽略了MoE-VLM中层依赖的模态融合模式，并且对专家特化提供的指导很少。我们提出了软模态引导专家特化(SMoES)，它由捕获层依赖融合模式的动态软模态分数、与专家并行部署对齐的专家分箱机制以及鼓励连贯模态特化的箱间互信息正则化组成。我们的方法利用基于注意力或高斯统计的模态分数来优化互信息正则化。在四个基于MoE的VLM和16个基准测试上的实验表明，该方法在有效性和效率方面均有所提高：多模态和仅语言任务的平均增益分别为0.9%和4.2%，EP通信开销减少56.1%，实际部署下的吞吐量提高12.3%。这些结果验证了将路由与模态感知的专家特化对齐可以释放MoE-VLM的容量和效率。

🔬 方法详解

问题定义：现有MoE-VLM中的专家路由策略要么是手工设计的，要么是模态无关的，无法充分利用模态特定信息来指导专家特化。这些方法忽略了不同层中视觉和语言模态的融合方式是不同的，导致专家无法有效地针对特定模态进行优化，从而限制了模型的性能和效率。

核心思路：SMoES的核心思想是利用软模态分数动态地衡量每一层中不同模态的重要性，并以此指导专家路由。通过将专家分配到不同的“箱”中，并鼓励每个箱内的专家专注于特定的模态，从而实现专家特化。同时，使用互信息正则化来保证不同箱之间的专家能够协同工作，避免信息冗余。

技术框架：SMoES主要包含三个模块：1) 动态软模态分数计算模块，用于衡量每一层中视觉和语言模态的重要性；2) 专家分箱模块，将专家分配到不同的箱中，每个箱内的专家专注于特定的模态；3) 互信息正则化模块，用于保证不同箱之间的专家能够协同工作。整体流程是，首先计算软模态分数，然后根据分数将专家分配到不同的箱中，最后使用互信息正则化来训练模型。

关键创新：SMoES的关键创新在于提出了软模态引导的专家特化方法。与现有方法相比，SMoES能够动态地衡量每一层中不同模态的重要性，并以此指导专家路由，从而实现更有效的专家特化。此外，SMoES还提出了专家分箱和互信息正则化机制，进一步提高了模型的性能和效率。

关键设计：软模态分数可以通过注意力机制或高斯统计来计算。专家分箱可以采用硬分配或软分配的方式。互信息正则化可以使用不同的互信息估计方法。论文中使用了基于注意力机制的软模态分数计算方法，硬分配的专家分箱方法，以及基于对比学习的互信息估计方法。损失函数由交叉熵损失和互信息正则化损失组成。具体参数设置未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SMoES在四个MoE-VLM模型和16个基准测试上均取得了显著提升。在多模态和仅语言任务上的平均增益分别为0.9%和4.2%。更重要的是，SMoES显著降低了EP通信开销（56.1%），并提高了吞吐量（12.3%），验证了其在实际部署中的有效性。

🎯 应用场景

SMoES可应用于各种需要高效处理多模态信息的场景，例如图像/视频理解、视觉问答、多模态检索等。通过提升MoE-VLM的性能和效率，SMoES可以降低计算成本，加速模型部署，并为更复杂的视觉语言任务提供支持。未来，该方法有望应用于自动驾驶、智能客服、医疗诊断等领域。

📄 摘要（原文）

Mixture-of-Experts (MoE) has become a prevalent backbone for large vision-language models (VLMs), yet how modality-specific signals should guide expert routing remains under-explored. Existing routing strategies are either hand-crafted or modality-agnostic, relying on idealized priors that ignore the layer-dependent modality fusion patterns in MoE-VLMs and provide little guidance for expert specialization. We propose Soft Modality-guided Expert Specialization (SMoES), which consists of dynamic soft modality scores that capture layer-dependent fusion patterns, an expert binning mechanism aligned with expert-parallel deployment, and an inter-bin mutual information regularization that encourages coherent modality specialization. Our method leverages attention-based or Gaussian-statistics modality scores to optimize mutual information regularization. Experiments across four MoE-based VLMs and 16 benchmarks demonstrate improvement on both effectiveness and efficiency: 0.9% and 4.2% average gain on multimodal and language-only tasks, 56.1% reduction in EP communication overhead, and 12.3% throughput improvement under realistic deployment. These results validate that aligning routing with modality-aware expert specialization unlocks MoE-VLM capacity and efficiency.

SMoES: Soft Modality-Guided Expert Specialization in MoE-VLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理