SMoLoRA: Exploring and Defying Dual Catastrophic Forgetting in Continual Visual Instruction Tuning

📄 arXiv: 2411.13949v2 📥 PDF

作者: Ziqi Wang, Chang Che, Qi Wang, Yangyang Li, Zenglin Shi, Meng Wang

分类: cs.CV, cs.AI

发布日期: 2024-11-21 (更新: 2025-07-01)

🔗 代码/项目: GITHUB


💡 一句话要点

SMoLoRA:探索并解决持续视觉指令微调中的双重灾难性遗忘问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 持续学习 视觉指令微调 灾难性遗忘 多模态学习 低秩适应 视觉理解 指令遵循

📋 核心要点

  1. 现有CVIT方法主要遵循传统持续学习范式,忽略了视觉理解和指令遵循能力同时退化的双重灾难性遗忘问题。
  2. SMoLoRA框架采用可分离的低秩适应混合,通过双重路由机制,分别针对视觉理解和指令遵循进行专门的适应。
  3. 实验表明,SMoLoRA在缓解双重遗忘、泛化到未见任务以及遵循多样指令方面均优于现有方法,性能显著提升。

📝 摘要(中文)

视觉指令微调(VIT)通过将各种视觉任务转化为基于语言的指令,使多模态大型语言模型(MLLM)能够有效地处理这些任务。在此基础上,持续视觉指令微调(CVIT)扩展了MLLM的能力,使其能够增量地学习新任务,以适应不断发展的功能。虽然之前的工作通过开发新的基准和方法来缓解灾难性遗忘,从而推进了CVIT,但这些努力主要遵循传统的持续学习范式,忽略了CVIT特有的挑战。我们发现CVIT中存在双重形式的灾难性遗忘,即MLLM不仅忘记了先前学习的视觉理解,而且在学习新任务时,指令遵循能力也会下降。为了解决这个问题,我们引入了可分离的低秩适应混合(SMoLoRA)框架,该框架通过两个不同的模块(一个用于视觉理解,另一个用于指令遵循)进行可分离的路由。这种双重路由设计实现了两个领域的专门适应,防止了遗忘,同时提高了性能。此外,我们提出了一个新的CVIT基准,该基准超越了现有的基准,额外评估了模型泛化到未见任务以及处理各种任务中不同指令的能力。大量的实验表明,SMoLoRA在缓解双重遗忘、提高对未见任务的泛化能力以及确保遵循各种指令的鲁棒性方面优于现有方法。

🔬 方法详解

问题定义:论文旨在解决持续视觉指令微调(CVIT)中存在的双重灾难性遗忘问题。现有的CVIT方法主要关注视觉理解能力的遗忘,而忽略了指令遵循能力的退化。这种双重遗忘限制了MLLM在持续学习新任务时的性能和泛化能力。

核心思路:论文的核心思路是将视觉理解和指令遵循视为两个独立的学习领域,并采用可分离的路由机制进行专门的适应。通过这种方式,可以防止在学习新任务时,模型同时忘记先前学习的视觉知识和指令遵循能力。

技术框架:SMoLoRA框架包含两个主要模块:视觉理解模块和指令遵循模块。每个模块都采用低秩适应(LoRA)技术进行参数更新。在训练过程中,输入数据通过一个可分离的路由机制,将视觉信息和指令信息分别传递到对应的模块进行处理。最终,两个模块的输出被合并,用于生成最终的预测结果。

关键创新:SMoLoRA的关键创新在于其可分离的路由机制和双模块架构。这种设计允许模型分别学习和更新视觉理解和指令遵循能力,从而有效地缓解了双重灾难性遗忘问题。与现有方法相比,SMoLoRA能够更好地保持先前学习的知识,并提高对新任务的泛化能力。

关键设计:SMoLoRA框架的关键设计包括:1) 使用LoRA进行参数更新,以减少训练成本和防止过拟合;2) 设计可分离的路由机制,以确保视觉信息和指令信息能够被正确地传递到对应的模块;3) 使用特定的损失函数来优化视觉理解和指令遵循能力,例如交叉熵损失和对比损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SMoLoRA在缓解双重灾难性遗忘方面显著优于现有方法。在新的CVIT基准测试中,SMoLoRA在多个指标上取得了最佳性能,包括平均准确率、遗忘率和泛化能力。与最先进的基线方法相比,SMoLoRA在未见任务上的泛化能力提升了约5%-10%。

🎯 应用场景

该研究成果可应用于需要持续学习新视觉任务的场景,例如智能助手、自动驾驶、机器人导航等。通过缓解双重灾难性遗忘,可以提高模型在不断变化的环境中的适应性和鲁棒性,使其能够更好地理解和执行用户的指令,从而提升用户体验和工作效率。

📄 摘要(原文)

Visual instruction tuning (VIT) enables multimodal large language models (MLLMs) to effectively handle a wide range of vision tasks by framing them as language-based instructions. Building on this, continual visual instruction tuning (CVIT) extends the capability of MLLMs to incrementally learn new tasks, accommodating evolving functionalities. While prior work has advanced CVIT through the development of new benchmarks and approaches to mitigate catastrophic forgetting, these efforts largely follow traditional continual learning paradigms, neglecting the unique challenges specific to CVIT. We identify a dual form of catastrophic forgetting in CVIT, where MLLMs not only forget previously learned visual understanding but also experience a decline in instruction following abilities as they acquire new tasks. To address this, we introduce the Separable Mixture of Low-Rank Adaptation (SMoLoRA) framework, which employs separable routing through two distinct modules-one for visual understanding and another for instruction following. This dual-routing design enables specialized adaptation in both domains, preventing forgetting while improving performance. Furthermore, we propose a new CVIT benchmark that goes beyond existing benchmarks by additionally evaluating a model's ability to generalize to unseen tasks and handle diverse instructions across various tasks. Extensive experiments demonstrate that SMoLoRA outperforms existing methods in mitigating dual forgetting, improving generalization to unseen tasks, and ensuring robustness in following diverse instructions. Code is available at https://github.com/Minato-Zackie/SMoLoRA.