AsyMoE: Leveraging Modal Asymmetry for Enhanced Expert Specialization in Large Vision-Language Models

📄 arXiv: 2509.12715v1 📥 PDF

作者: Heng Zhang, Haichuan Hu, Yaomin Shen, Weihao Yu, Yilei Yuan, Haochen You, Guo Cheng, Zijian Zhang, Lubin Gan, Huihui Wei, Hao Zhang, Jin Huang

分类: cs.CV, cs.RO

发布日期: 2025-09-16


💡 一句话要点

AsyMoE:利用模态不对称性增强大型视觉-语言模型中的专家特化

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 混合专家 模态不对称性 跨模态交互 专家特化 双曲空间 路由机制

📋 核心要点

  1. 现有MoE模型在处理视觉-语言任务时,由于视觉和语言模态的不对称性,难以有效平衡模态特定特征和跨模态交互。
  2. AsyMoE通过引入三种专家组:模态内专家、双曲模态间专家和证据优先语言专家,来建模视觉和语言模态之间的不对称性。
  3. 实验结果表明,AsyMoE在准确率上显著优于传统MoE和模态特定MoE,同时减少了激活参数的数量,提升了模型效率。

📝 摘要(中文)

大型视觉-语言模型(LVLMs)通过扩展架构和广泛的训练,在多模态任务上表现出令人印象深刻的性能。然而,现有的混合专家(MoE)方法由于视觉和语言处理之间的不对称性而面临挑战。视觉信息在空间上是完整的,而语言需要维护序列上下文。因此,MoE模型难以平衡模态特定特征和跨模态交互。通过系统分析,我们观察到,深层中的语言专家逐渐失去上下文基础,更多地依赖参数知识,而不是利用所提供的视觉和语言信息。为了解决这个问题,我们提出了一种新的架构AsyMoE,它使用三个专门的专家组来模拟这种不对称性。我们设计了用于模态特定处理的模态内专家,用于分层跨模态交互的双曲模态间专家,以及用于抑制参数偏差和保持上下文基础的证据优先语言专家。大量的实验表明,AsyMoE比vanilla MoE和模态特定MoE分别实现了26.58%和15.45%的准确率提升,并且比密集模型减少了25.45%的激活参数。

🔬 方法详解

问题定义:现有的大型视觉-语言模型(LVLMs)中的混合专家(MoE)方法,由于视觉和语言模态之间存在本质上的不对称性,导致模型难以有效地学习和利用模态特定特征以及进行跨模态交互。视觉信息通常是空间上完整的,而语言信息则需要维护序列上下文,这使得模型难以平衡两种模态的信息。

核心思路:AsyMoE的核心思路是显式地建模视觉和语言模态之间的不对称性。通过设计三种不同类型的专家组,分别处理模态内信息、模态间交互以及语言信息的上下文保持,从而使模型能够更好地适应不同模态的特性,并提升整体性能。

技术框架:AsyMoE的整体架构包含三个主要的专家组: 1. 模态内专家:专注于处理特定模态的信息,例如视觉特征提取和语言上下文建模。 2. 双曲模态间专家:负责进行分层的跨模态交互,利用双曲空间的特性来更好地表示不同模态之间的关系。 3. 证据优先语言专家:旨在抑制语言专家对参数知识的过度依赖,并保持语言信息的上下文基础。 模型通过路由机制将输入分配给不同的专家组进行处理,最终融合各个专家的输出,完成视觉-语言任务。

关键创新:AsyMoE的关键创新在于其对模态不对称性的显式建模以及三种专家组的协同工作。与传统的MoE方法相比,AsyMoE能够更好地适应视觉和语言模态的差异,从而提升模型的性能和效率。双曲模态间专家的引入也是一个重要的创新点,它能够更有效地表示不同模态之间的复杂关系。

关键设计: 1. 专家组数量和类型:选择三种专家组,分别处理模态内信息、模态间交互和语言上下文。 2. 双曲空间的使用:利用双曲空间来表示模态间关系,并设计相应的网络结构。 3. 路由机制:设计有效的路由机制,将输入分配给合适的专家组。 4. 损失函数:使用合适的损失函数来训练模型,例如交叉熵损失或对比学习损失。

📊 实验亮点

AsyMoE在多个视觉-语言任务上取得了显著的性能提升。与vanilla MoE相比,AsyMoE的准确率提升了26.58%,与模态特定MoE相比,准确率提升了15.45%。同时,AsyMoE比密集模型减少了25.45%的激活参数,表明其具有更高的计算效率。这些实验结果充分证明了AsyMoE的有效性和优越性。

🎯 应用场景

AsyMoE具有广泛的应用前景,包括图像描述、视觉问答、跨模态检索等。通过提升视觉-语言模型的性能和效率,AsyMoE可以应用于智能客服、自动驾驶、医疗诊断等领域,为人们提供更智能、更便捷的服务。未来,AsyMoE还可以扩展到其他多模态任务中,例如视频理解、语音识别等。

📄 摘要(原文)

Large Vision-Language Models (LVLMs) have demonstrated impressive performance on multimodal tasks through scaled architectures and extensive training. However, existing Mixture of Experts (MoE) approaches face challenges due to the asymmetry between visual and linguistic processing. Visual information is spatially complete, while language requires maintaining sequential context. As a result, MoE models struggle to balance modality-specific features and cross-modal interactions. Through systematic analysis, we observe that language experts in deeper layers progressively lose contextual grounding and rely more on parametric knowledge rather than utilizing the provided visual and linguistic information. To address this, we propose AsyMoE, a novel architecture that models this asymmetry using three specialized expert groups. We design intra-modality experts for modality-specific processing, hyperbolic inter-modality experts for hierarchical cross-modal interactions, and evidence-priority language experts to suppress parametric biases and maintain contextual grounding. Extensive experiments demonstrate that AsyMoE achieves 26.58% and 15.45% accuracy improvements over vanilla MoE and modality-specific MoE respectively, with 25.45% fewer activated parameters than dense models.