EvoMoE: Expert Evolution in Mixture of Experts for Multimodal Large Language Models
作者: Linglin Jing, Yuting Gao, Zhigang Wang, Wang Lan, Yiwen Tang, Wenhai Wang, Kaipeng Zhang, Qingpei Guo
分类: cs.CL
发布日期: 2025-05-28
💡 一句话要点
EvoMoE:多模态大语言模型中基于专家演化的混合专家模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 混合专家模型 专家演化 动态路由 专家同质化 路由僵化 视觉问答 图像描述
📋 核心要点
- 现有MoE方法在MLLM中存在专家同质化问题,专家通常由复制LLM的FFN参数初始化,导致专家功能趋同。
- EvoMoE通过专家演化策略,从单个可训练专家逐步演化出多个鲁棒专家,解决专家同质化问题。
- EvoMoE引入动态令牌感知路由(DTR),根据模态和令牌值动态分配令牌,并在多模态基准测试中显著优于其他模型。
📝 摘要(中文)
本文提出EvoMoE,一种创新的混合专家(MoE)调优框架,旨在解决多模态大语言模型(MLLM)中专家同质化和路由僵化的问题。EvoMoE设计了一种精细的专家初始化策略,通过专家演化过程,从单个可训练专家逐步演化出多个鲁棒的专家,从而解决专家同质化问题。此外,引入了动态令牌感知路由(DTR),这是一种新颖的路由机制,它根据模态和内在令牌值将输入令牌分配给适当的专家。DTR通过超网络动态生成针对每个令牌定制的路由权重。大量实验表明,EvoMoE在各种多模态基准测试(包括MME、MMBench、TextVQA和POPE)中显著优于其他稀疏MLLM。结果表明,EvoMoE通过解决专家同质化和路由僵化这两个关键问题,有效地提高了MLLM的性能。
🔬 方法详解
问题定义:现有的多模态混合专家模型(MLLM-MoE)面临两个主要问题:一是专家同质化,即MoE中的专家功能相似,缺乏多样性;二是路由僵化,即静态线性路由无法区分视觉和文本令牌,导致图像和文本使用相似的专家分布。这些问题限制了MLLM-MoE的性能。
核心思路:EvoMoE的核心思路是通过专家演化和动态令牌感知路由来解决专家同质化和路由僵化问题。专家演化旨在创建多样化的专家,而动态令牌感知路由旨在根据输入令牌的模态和内容自适应地选择专家。
技术框架:EvoMoE框架包含两个主要组成部分:专家演化模块和动态令牌感知路由(DTR)模块。专家演化模块负责初始化和训练多样化的专家。DTR模块负责根据输入令牌的模态和内容,动态地将令牌分配给不同的专家。整个框架嵌入到现有的MLLM架构中,例如LLaMA。
关键创新:EvoMoE的关键创新在于专家演化策略和动态令牌感知路由机制。专家演化策略通过逐步演化多个专家,避免了直接复制FFN参数导致的同质化问题。动态令牌感知路由利用超网络为每个令牌生成定制的路由权重,实现了更精细的专家选择。
关键设计:专家演化过程从一个可训练的专家开始,通过多次迭代,逐步引入差异性。每次迭代中,都会对当前专家进行微调,并创建一个新的专家,该专家与当前专家具有一定的差异性。动态令牌感知路由使用超网络,根据输入令牌的模态信息和内容信息,生成路由权重。超网络的输入包括视觉特征和文本特征,输出是每个专家的权重。损失函数包括路由损失和任务损失,路由损失鼓励令牌被分配到合适的专家,任务损失则保证模型在下游任务上的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,EvoMoE在MME、MMBench、TextVQA和POPE等多个多模态基准测试中显著优于其他稀疏MLLM。例如,在MMBench上,EvoMoE相比基线模型取得了显著的性能提升。这些结果验证了EvoMoE在解决专家同质化和路由僵化问题方面的有效性,并证明了其在提升MLLM性能方面的潜力。
🎯 应用场景
EvoMoE可应用于各种多模态任务,如视觉问答、图像描述、多模态对话等。通过提升MLLM的性能,EvoMoE有助于开发更智能、更强大的多模态人工智能系统,例如智能客服、自动驾驶、医疗诊断等。未来,EvoMoE可以扩展到更多模态和更复杂的任务中。
📄 摘要(原文)
Recent advancements have shown that the Mixture of Experts (MoE) approach significantly enhances the capacity of large language models (LLMs) and improves performance on downstream tasks. Building on these promising results, multi-modal large language models (MLLMs) have increasingly adopted MoE techniques. However, existing multi-modal MoE tuning methods typically face two key challenges: expert uniformity and router rigidity. Expert uniformity occurs because MoE experts are often initialized by simply replicating the FFN parameters from LLMs, leading to homogenized expert functions and weakening the intended diversification of the MoE architecture. Meanwhile, router rigidity stems from the prevalent use of static linear routers for expert selection, which fail to distinguish between visual and textual tokens, resulting in similar expert distributions for image and text. To address these limitations, we propose EvoMoE, an innovative MoE tuning framework. EvoMoE introduces a meticulously designed expert initialization strategy that progressively evolves multiple robust experts from a single trainable expert, a process termed expert evolution that specifically targets severe expert homogenization. Furthermore, we introduce the Dynamic Token-aware Router (DTR), a novel routing mechanism that allocates input tokens to appropriate experts based on their modality and intrinsic token values. This dynamic routing is facilitated by hypernetworks, which dynamically generate routing weights tailored for each individual token. Extensive experiments demonstrate that EvoMoE significantly outperforms other sparse MLLMs across a variety of multi-modal benchmarks, including MME, MMBench, TextVQA, and POPE. Our results highlight the effectiveness of EvoMoE in enhancing the performance of MLLMs by addressing the critical issues of expert uniformity and router rigidity.