CuMo: Scaling Multimodal LLM with Co-Upcycled Mixture-of-Experts

📄 arXiv: 2405.05949v1 📥 PDF

作者: Jiachen Li, Xinyao Wang, Sijie Zhu, Chia-Wen Kuo, Lu Xu, Fan Chen, Jitesh Jain, Humphrey Shi, Longyin Wen

分类: cs.CV

发布日期: 2024-05-09

🔗 代码/项目: GITHUB


💡 一句话要点

提出CuMo以提升多模态大语言模型的性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 稀疏门控专家 视觉问答 视觉指令跟随 模型扩展性

📋 核心要点

  1. 现有的多模态大语言模型扩展方法计算成本高,且未能有效提升视觉处理能力。
  2. CuMo通过在视觉编码器和MLP连接器中引入稀疏门控专家块,优化了模型的扩展性和推理效率。
  3. CuMo在多个视觉问答和视觉指令跟随基准测试中表现优异,超越了当前最先进的模型。

📝 摘要(中文)

近年来,多模态大语言模型(LLMs)的进展主要集中在通过增加文本-图像对数据和增强LLMs来提高多模态任务的性能。然而,这些扩展方法计算成本高昂,并忽视了从视觉侧提升模型能力的重要性。受Mixture-of-Experts(MoE)成功应用的启发,本文提出了CuMo。CuMo在视觉编码器和MLP连接器中引入了共同上升的Top-K稀疏门控专家块,从而在推理过程中以最小的额外激活参数增强多模态LLMs。CuMo首先对MLP块进行预训练,然后在视觉指令调优阶段从预训练的MLP块初始化MoE块中的每个专家。辅助损失用于确保专家的平衡加载。CuMo在各种视觉问答和视觉指令跟随基准测试中超越了最先进的多模态LLMs,同时仅在开源数据集上进行训练。

🔬 方法详解

问题定义:本文旨在解决现有多模态大语言模型在扩展性和视觉处理能力上的不足。现有方法在增加数据量和模型规模时,往往导致计算成本显著上升,且未能有效利用视觉信息。

核心思路:CuMo的核心思路是引入共同上升的Top-K稀疏门控专家块(MoE),通过在视觉编码器和MLP连接器中应用该结构,提升模型的多模态能力,同时保持推理时的计算效率。

技术框架:CuMo的整体架构包括预训练的MLP块和MoE块。在视觉指令调优阶段,CuMo首先对MLP块进行预训练,然后从中初始化MoE块中的每个专家。此外,使用辅助损失来确保专家的平衡加载。

关键创新:CuMo的主要创新在于将MoE结构有效整合到多模态LLMs中,显著提升了模型的扩展性和推理效率。这一设计与传统方法相比,能够在保持较小推理成本的同时,增强模型的能力。

关键设计:CuMo采用了稀疏门控机制,确保在推理时仅激活少量专家,从而减少计算开销。同时,辅助损失的引入确保了各个专家的均衡使用,避免了某些专家过载而其他专家闲置的情况。具体的参数设置和网络结构细节在论文中进行了详细描述。

📊 实验亮点

CuMo在多个视觉问答和视觉指令跟随基准测试中表现出色,相较于最先进的多模态LLMs,性能提升显著。具体而言,CuMo在各个模型规模组中均超越了现有模型,展示了其在开源数据集上的强大能力。

🎯 应用场景

CuMo的研究成果在多模态任务中具有广泛的应用潜力,包括视觉问答、图像描述生成和人机交互等领域。其高效的推理能力和优越的性能使其能够在实际应用中提供更好的用户体验,推动智能助手和自动化系统的发展。

📄 摘要(原文)

Recent advancements in Multimodal Large Language Models (LLMs) have focused primarily on scaling by increasing text-image pair data and enhancing LLMs to improve performance on multimodal tasks. However, these scaling approaches are computationally expensive and overlook the significance of improving model capabilities from the vision side. Inspired by the successful applications of Mixture-of-Experts (MoE) in LLMs, which improves model scalability during training while keeping inference costs similar to those of smaller models, we propose CuMo. CuMo incorporates Co-upcycled Top-K sparsely-gated Mixture-of-experts blocks into both the vision encoder and the MLP connector, thereby enhancing the multimodal LLMs with minimal additional activated parameters during inference. CuMo first pre-trains the MLP blocks and then initializes each expert in the MoE block from the pre-trained MLP block during the visual instruction tuning stage. Auxiliary losses are used to ensure a balanced loading of experts. CuMo outperforms state-of-the-art multimodal LLMs across various VQA and visual-instruction-following benchmarks using models within each model size group, all while training exclusively on open-sourced datasets. The code and model weights for CuMo are open-sourced at https://github.com/SHI-Labs/CuMo.