LLaVA-CMoE: Towards Continual Mixture of Experts for Large Vision-Language Models
作者: Hengyuan Zhao, Ziqin Wang, Qixin Sun, Kaiyou Song, Yilin Li, Xiaolin Hu, Qingpei Guo, Si Liu
分类: cs.CL
发布日期: 2025-03-27 (更新: 2025-06-25)
备注: Preprint
💡 一句话要点
提出LLaVA-CMoE,解决LLM在视觉-语言持续学习中的灾难性遗忘和参数效率问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 持续学习 混合专家模型 视觉-语言模型 灾难性遗忘 参数效率
📋 核心要点
- 现有MoE模型在持续多模态学习中面临参数快速增长和灾难性遗忘的挑战。
- LLaVA-CMoE通过探针引导的知识扩展和概率任务定位器,实现参数高效且稳健的持续学习。
- 在CoIN基准测试中,LLaVA-CMoE在减少遗忘和参数开销方面优于现有方法。
📝 摘要(中文)
本文提出LLaVA-CMoE,一个面向大型语言模型的持续学习框架,无需先前任务的回放数据,并确保参数效率和稳健的知识保留。该方法引入探针引导的知识扩展机制,利用探针专家动态确定何时何地添加新专家,实现自适应和最小化的参数扩展,以适应任务的复杂性。此外,提出了概率任务定位器,为每个任务分配一个专用的轻量级路由器。为了解决推理期间任务标签未知的问题,利用基于VAE的重构策略,通过匹配输入分布来识别最合适的路由器,从而实现自动和准确的专家分配。这种设计减轻了路由冲突和灾难性遗忘,实现了无需显式任务标签的稳健持续学习。在CoIN基准测试(涵盖八个不同的VQA任务)上的大量实验表明,LLaVA-CMoE以紧凑的模型尺寸提供了强大的持续学习性能,与先前的方法相比,显著减少了遗忘和参数开销。这些结果展示了该方法在大型语言模型中参数高效持续学习的有效性和可扩展性。代码即将开源。
🔬 方法详解
问题定义:现有的MoE模型在应用于视觉-语言持续学习时,面临两个主要问题。一是随着新任务的不断到来,简单地扩展模型会导致参数量迅速增长,造成资源浪费。二是修改共享的路由组件容易导致灾难性遗忘,损害模型之前学习到的知识。因此,如何在保证模型性能的同时,实现参数高效且避免灾难性遗忘是本文要解决的核心问题。
核心思路:LLaVA-CMoE的核心思路是动态地扩展模型容量,只在必要时添加新的专家,并为每个任务分配一个独立的路由器,从而避免不同任务之间的干扰。通过探针引导的知识扩展机制,模型能够自适应地确定何时以及在何处添加新的专家,从而实现参数的最小化扩展。概率任务定位器则负责将输入分配到最合适的专家,即使在推理阶段任务标签未知的情况下也能有效工作。
技术框架:LLaVA-CMoE的整体框架包含以下几个主要模块:1) 视觉-语言编码器:负责将输入图像和文本转换为统一的特征表示。2) 探针专家:用于评估当前模型对新任务的适应程度,并决定是否需要添加新的专家。3) 专家网络:由多个专家组成,每个专家负责处理特定类型的任务。4) 概率任务定位器:为每个任务分配一个独立的路由器,负责将输入分配到最合适的专家。5) 基于VAE的重构模块:用于在推理阶段识别任务类型,从而选择合适的路由器。
关键创新:LLaVA-CMoE的关键创新在于探针引导的知识扩展机制和概率任务定位器的设计。探针引导的知识扩展机制能够动态地调整模型容量,避免了过度参数化的问题。概率任务定位器则通过为每个任务分配独立的路由器,有效地缓解了灾难性遗忘。此外,基于VAE的重构策略使得模型能够在推理阶段自动识别任务类型,无需显式任务标签。
关键设计:探针引导的知识扩展机制使用一组探针专家来评估模型对新任务的适应程度。如果探针专家的输出表明模型无法很好地处理新任务,则会添加新的专家。概率任务定位器使用一个轻量级的神经网络作为路由器,将输入分配到最合适的专家。基于VAE的重构模块使用变分自编码器来学习输入数据的分布,并通过比较重构误差来识别任务类型。损失函数包括交叉熵损失、重构损失和正则化项,用于优化模型参数。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLaVA-CMoE在CoIN基准测试中取得了显著的性能提升,在八个不同的VQA任务上,与现有方法相比,显著减少了遗忘和参数开销。具体来说,LLaVA-CMoE在保持模型性能的同时,将参数量减少了XX%,遗忘率降低了YY%。这些结果验证了LLaVA-CMoE在参数高效持续学习方面的有效性。
🎯 应用场景
LLaVA-CMoE适用于需要持续学习新知识的视觉-语言任务,例如智能客服、机器人导航、自动驾驶等。该方法能够有效应对不断变化的环境和任务需求,提高模型的适应性和鲁棒性,降低模型部署和维护的成本。未来,该研究可以扩展到更复杂的任务和更大的模型规模,推动通用人工智能的发展。
📄 摘要(原文)
Mixture of Experts (MoE) architectures have recently advanced the scalability and adaptability of large language models (LLMs) for continual multimodal learning. However, efficiently extending these models to accommodate sequential tasks remains challenging. As new tasks arrive, naive model expansion leads to rapid parameter growth, while modifying shared routing components often causes catastrophic forgetting, undermining previously learned knowledge. To address these issues, we propose LLaVA-CMoE, a continual learning framework for LLMs that requires no replay data of previous tasks and ensures both parameter efficiency and robust knowledge retention. Our approach introduces a Probe-Guided Knowledge Extension mechanism, which uses probe experts to dynamically determine when and where new experts should be added, enabling adaptive and minimal parameter expansion tailored to task complexity. Furthermore, we present a Probabilistic Task Locator that assigns each task a dedicated, lightweight router. To handle the practical issue that task labels are unknown during inference, we leverage a VAE-based reconstruction strategy to identify the most suitable router by matching input distributions, allowing automatic and accurate expert allocation. This design mitigates routing conflicts and catastrophic forgetting, enabling robust continual learning without explicit task labels. Extensive experiments on the CoIN benchmark, covering eight diverse VQA tasks, demonstrate that LLaVA-CMoE delivers strong continual learning performance with a compact model size, significantly reducing forgetting and parameter overhead compared to prior methods. These results showcase the effectiveness and scalability of our approach for parameter-efficient continual learning in large language models. Our code will be open-sourced soon.