MAny: Merge Anything for Multimodal Continual Instruction Tuning
作者: Zijian Gao, Wangwang Jia, Xingxing Zhang, Pengfei Qian, Tao Sun, Bo Ding, Yong Dou, Huaimin Wang, Kele Xu
分类: cs.LG, cs.AI
发布日期: 2026-04-15
💡 一句话要点
提出MAny框架,通过跨模态投影和低秩参数融合解决多模态持续指令调优中的灾难性遗忘问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 持续学习 指令调优 知识融合 灾难性遗忘
📋 核心要点
- 多模态持续指令调优面临灾难性遗忘问题,现有方法忽略了跨模态感知漂移和低秩参数推理崩溃的双重遗忘现象。
- MAny框架通过跨模态投影融合(CPM)恢复感知对齐,并通过低秩参数融合(LPM)消除任务间干扰,实现知识融合。
- MAny无需额外训练,仅通过CPU代数运算即可实现知识融合,并在UCIT基准测试中显著优于现有方法。
📝 摘要(中文)
多模态持续指令调优(MCIT)对于多模态大语言模型(MLLM)的序列任务适应至关重要,但受到灾难性遗忘的严重限制。现有研究主要关注推理语言骨干网络,本文揭示了一个关键但被忽视的双重遗忘现象,即跨模态投影空间中的感知漂移和低秩参数空间中的推理崩溃。为了解决这个问题,我们提出了MAny(Merge Anything)框架,通过跨模态投影融合(CPM)和低秩参数融合(LPM)来融合特定任务的知识。具体来说,CPM通过视觉原型引导自适应地融合跨模态视觉表示,从而恢复感知对齐,确保推理过程中准确的特征恢复。同时,LPM通过递归地融合低秩权重矩阵,消除特定任务低秩模块之间的相互干扰。通过利用递归最小二乘法,LPM提供了一个闭式解,从数学上保证了推理稳定性的最优融合轨迹。值得注意的是,MAny作为一个免训练范式,通过高效的基于CPU的代数运算实现知识融合,无需初始调优之外的额外基于梯度的优化。大量的评估证实了MAny在多个MLLM和基准测试中的卓越性能和鲁棒性。特别是在UCIT基准测试中,MAny在两种不同的MLLM上,最终平均准确率方面分别比最先进的方法显著领先高达8.57%和2.85%。
🔬 方法详解
问题定义:多模态持续指令调优(MCIT)旨在使多模态大语言模型(MLLM)能够逐步适应新的任务,但现有的方法在学习新任务时,往往会忘记之前学习过的任务,即出现灾难性遗忘。现有方法主要集中在优化语言模型的骨干网络,而忽略了跨模态投影空间中的感知漂移和低秩参数空间中的推理崩溃,导致模型性能下降。
核心思路:MAny框架的核心思路是通过知识融合来解决灾难性遗忘问题。它不是通过传统的微调方式来适应新任务,而是将新任务的知识与之前学习到的知识进行融合,从而避免覆盖或干扰之前的知识。具体来说,它通过跨模态投影融合(CPM)来恢复感知对齐,并通过低秩参数融合(LPM)来消除任务间的干扰。
技术框架:MAny框架主要包含两个模块:跨模态投影融合(CPM)和低秩参数融合(LPM)。CPM模块负责处理视觉信息的跨模态对齐问题,通过视觉原型引导自适应地融合跨模态视觉表示,确保推理过程中准确的特征恢复。LPM模块负责处理语言模型的参数融合问题,通过递归地融合低秩权重矩阵,消除特定任务低秩模块之间的相互干扰。整个过程无需额外的梯度优化,仅通过CPU代数运算即可完成。
关键创新:MAny框架的关键创新在于它提出了一种免训练的知识融合方法,通过CPM和LPM两个模块,分别解决了跨模态感知漂移和低秩参数推理崩溃的问题。与传统的微调方法相比,MAny避免了额外的梯度优化,从而提高了效率和稳定性。此外,LPM模块利用递归最小二乘法,提供了一个闭式解,从数学上保证了推理稳定性的最优融合轨迹。
关键设计:CPM模块的关键设计在于视觉原型的引入,通过视觉原型来引导跨模态视觉表示的融合,从而提高了感知对齐的准确性。LPM模块的关键设计在于递归最小二乘法的应用,通过递归地融合低秩权重矩阵,实现了任务间知识的有效融合,并保证了推理的稳定性。具体参数设置和网络结构细节在论文中进行了详细描述,这里不再赘述。
🖼️ 关键图片
📊 实验亮点
MAny框架在UCIT基准测试中取得了显著的性能提升。在两种不同的MLLM上,MAny的最终平均准确率分别比最先进的方法显著领先高达8.57%和2.85%。这些结果表明,MAny框架能够有效地解决多模态持续指令调优中的灾难性遗忘问题,并具有良好的鲁棒性和泛化能力。
🎯 应用场景
MAny框架可应用于各种需要多模态持续学习的场景,例如智能助手、自动驾驶、医疗诊断等。它可以使模型在不断学习新任务的同时,保持对之前任务的良好性能,从而提高模型的泛化能力和实用性。未来,该研究可以进一步扩展到更多的模态和任务类型,并与其他持续学习方法相结合,以实现更强大的多模态持续学习能力。
📄 摘要(原文)
Multimodal Continual Instruction Tuning (MCIT) is essential for sequential task adaptation of Multimodal Large Language Models (MLLMs) but is severely restricted by catastrophic forgetting. While existing literature focuses on the reasoning language backbone, in this work, we expose a critical yet neglected dual-forgetting phenomenon across both perception drift in Cross-modal Projection Space and reasoning collapse in Low-rank Parameter Space. To resolve this, we present \textbf{MAny} (\textbf{M}erge \textbf{Any}thing), a framework that merges task-specific knowledge through \textbf{C}ross-modal \textbf{P}rojection \textbf{M}erging (\textbf{CPM}) and \textbf{L}ow-rank \textbf{P}arameter \textbf{M}erging (\textbf{LPM}). Specifically, CPM recovers perceptual alignment by adaptively merging cross-modal visual representations via visual-prototype guidance, ensuring accurate feature recovery during inference. Simultaneously, LPM eliminates mutual interference among task-specific low-rank modules by recursively merging low-rank weight matrices. By leveraging recursive least squares, LPM provides a closed-form solution that mathematically guarantees an optimal fusion trajectory for reasoning stability. Notably, MAny operates as a training-free paradigm that achieves knowledge merging via efficient CPU-based algebraic operations, eliminating additional gradient-based optimization beyond initial tuning. Our extensive evaluations confirm the superior performance and robustness of MAny across multiple MLLMs and benchmarks. Specifically, on the UCIT benchmark, MAny achieves significant leads of up to 8.57\% and 2.85\% in final average accuracy over state-of-the-art methods across two different MLLMs, respectively.