CRAM: Centroid-Routing and Adaptive MoE for Multimodal Continual Instruction Tuning

📄 arXiv: 2606.02502v1 📥 PDF

作者: Jun-Tao Tang, Zhen-Hao Xie, Yu-Cheng Shi, Da-Wei Zhou

分类: cs.CL

发布日期: 2026-06-01


💡 一句话要点

CRAM:面向多模态持续指令调优的质心路由与自适应MoE

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 持续学习 指令调优 混合专家模型 参数效率

📋 核心要点

  1. 现有MCIT方法在共享参数更新和独立模块扩展间存在trade-off,前者易遗忘,后者参数效率低。
  2. CRAM通过隔离任务特定模块缓解灾难性遗忘,并利用自适应秩实例化提升参数效率。
  3. CRAM使用质心引导路由激活已有专家能力,并施加正交性惩罚避免通用能力被重新学习。

📝 摘要(中文)

多模态大型语言模型(MLLMs)通过指令调优将异构的视觉-语言任务统一到一个共享的生成框架下。然而,实际部署需要持续的能力扩展,这使得多模态持续指令调优(MCIT)至关重要。现有方法要么使用共享参数集更新所有任务,要么为每个新任务分配专用模块。共享更新迫使异构任务竞争,导致已学习能力的遗忘。相反,孤立的扩展虽然避免了干扰,但严重限制了长任务流上的参数效率。为了解决这个困境,我们提出了CRAM。具体来说,通过将任务特定的模式隔离到独立的模块中,CRAM减轻了跨任务的灾难性遗忘。为了进一步提高参数效率,我们利用自适应秩实例化来识别现有专家能力和新任务需求之间的能力差距,并动态地分配必要的参数。为了确保任务之间的稳定重用,质心引导路由识别并激活现有专家的能力,而正交性惩罚将新的更新限制在任务特定的方向上,防止重新学习通用能力。在各种基准上的大量实验一致地证明了其优于现有方法。

🔬 方法详解

问题定义:论文旨在解决多模态持续指令调优(MCIT)中,如何在持续学习新任务的同时,避免灾难性遗忘,并保持参数效率的问题。现有方法要么共享参数导致任务间竞争和遗忘,要么为每个任务分配独立模块导致参数冗余。

核心思路:论文的核心思路是将任务特定的知识隔离到独立的专家模块中,从而避免不同任务之间的干扰,减轻灾难性遗忘。同时,通过自适应地分配参数,避免参数冗余,提高参数效率。此外,通过质心引导路由和正交性惩罚,鼓励重用已有知识,并限制新知识对已有知识的干扰。

技术框架:CRAM的整体框架基于MoE(Mixture of Experts)架构。每个任务对应一组专家模块,这些模块负责学习该任务的特定知识。当新任务到来时,CRAM会根据任务的特点,自适应地分配新的专家模块。在推理时,CRAM使用质心引导路由来选择合适的专家模块,并将输入传递给这些模块进行处理。

关键创新:CRAM的关键创新在于以下几点:1) 任务特定专家模块的隔离,有效缓解了灾难性遗忘;2) 自适应秩实例化,根据任务需求动态分配参数,提高了参数效率;3) 质心引导路由,鼓励重用已有知识;4) 正交性惩罚,限制新知识对已有知识的干扰。与现有方法相比,CRAM能够在保持较高性能的同时,显著提高参数效率。

关键设计:CRAM的关键设计包括:1) 自适应秩实例化:根据新任务的需求,动态调整新专家模块的秩,避免过度参数化。具体实现方式未知。2) 质心引导路由:计算输入与各个专家模块质心的相似度,选择相似度最高的专家模块。质心的计算方式未知。3) 正交性惩罚:通过在损失函数中添加正交性惩罚项,限制新专家模块的更新方向与已有专家模块的正交性,避免对已有知识的干扰。具体惩罚项的形式未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文在多个多模态持续学习基准上进行了实验,结果表明CRAM显著优于现有方法。具体性能数据未知,但摘要中强调了“consistently demonstrate its superiority over existing methods”,说明CRAM在多个任务上都取得了显著的提升。

🎯 应用场景

CRAM适用于需要持续学习新任务的多模态应用场景,例如智能助手、自动驾驶、医疗诊断等。它可以帮助模型在不断学习新知识的同时,保持对已有知识的掌握,从而提高模型的泛化能力和鲁棒性。该研究对于推动多模态持续学习的发展具有重要意义。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) unify heterogeneous vision-language tasks under a shared generative framework via instruction tuning, yet real-world deployment demands continuous capability expansion, making Multimodal Continual Instruction Tuning (MCIT) essential. Existing methods either update all tasks with a shared parameter set or allocate dedicated modules for each new task. Shared updates force heterogeneous tasks to compete, causing forgetting of learned capabilities. Conversely, isolated expansion prevents interference but severely limits parameter efficiency over long task streams. To address this dilemma, we propose CRAM. Specifically, by isolating task-specific patterns into independent modules, CRAM mitigates catastrophic forgetting across tasks. To further boost parameter efficiency, we utilize adaptive-rank instantiation to identify the capability gap between existing expert capability and new task demands, and dynamically allocate only the necessary parameters. To ensure stable reuse among tasks, centroid-guided routing recognizes and activates existing experts' capabilities, while an orthogonality penalty confines new updates to task-specific directions, preventing re-learning general capability. Extensive experiments across diverse benchmarks consistently demonstrate its superiority over existing methods.