Mitigating Visual Knowledge Forgetting in MLLM Instruction-tuning via Modality-decoupled Gradient Descent

📄 arXiv: 2502.11740v1 📥 PDF

作者: Junda Wu, Yuxin Xiong, Xintong Li, Yu Xia, Ruoyu Wang, Yu Wang, Tong Yu, Sungchul Kim, Ryan A. Rossi, Lina Yao, Jingbo Shang, Julian McAuley

分类: cs.LG, cs.CV

发布日期: 2025-02-17

备注: 9 pages


💡 一句话要点

提出MDGD方法,通过解耦梯度下降缓解MLLM指令微调中的视觉知识遗忘问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 指令微调 视觉知识遗忘 模态解耦梯度下降 有效秩 信息瓶颈 参数高效微调

📋 核心要点

  1. 指令微调中,MLLM面临视觉知识遗忘问题,现有方法未能有效解决,导致视觉表征压缩和性能下降。
  2. 论文提出模态解耦梯度下降(MDGD)方法,通过调节梯度更新,保持视觉表征的有效秩,缓解过度压缩。
  3. 实验表明,MDGD能有效缓解视觉遗忘,同时实现对新任务的良好适应,提升了MLLM的性能。

📝 摘要(中文)

最近的多模态大语言模型(MLLM)在经过大规模多模态数据集的预训练后,展现出新兴的视觉理解和推理能力。与预训练不同,预训练阶段MLLM接收到丰富的视觉-文本对齐信息,而指令微调通常是文本驱动的,视觉监督较弱,导致预训练的视觉理解能力下降,即视觉知识遗忘。现有方法,如直接微调和持续学习方法,未能明确解决这个问题,通常压缩视觉表征,优先考虑任务对齐而非视觉保留,从而加剧视觉遗忘。为了克服这个限制,我们引入了一种新的视角,利用有效秩来量化视觉表征丰富度的退化,并通过信息瓶颈原理将这种退化解释为过度压缩,导致关键的预训练视觉知识退化。基于此,我们提出了一种模态解耦梯度下降(MDGD)方法,该方法调节梯度更新,以保持视觉表征的有效秩,同时减轻信息瓶颈描述的过度压缩效应。通过显式地将视觉理解的优化与特定任务的对齐分离,MDGD保留了预训练的视觉知识,同时实现了高效的任务适应。为了实现轻量级的指令微调,我们进一步开发了一种使用梯度掩码的内存高效微调方法,该方法选择性地更新模型参数的子集,以实现参数高效微调(PEFT),减少计算开销,同时保留丰富的视觉表征。在各种下游任务和骨干MLLM上的大量实验表明,MDGD有效地缓解了预训练任务中的视觉遗忘,同时实现了对新任务的强大适应。

🔬 方法详解

问题定义:指令微调过程中,多模态大语言模型(MLLM)容易遗忘预训练阶段学到的视觉知识,导致视觉理解能力下降。现有方法,如直接微调和持续学习,往往侧重于任务对齐,忽略了对视觉表征的保护,加剧了视觉知识的遗忘。这些方法的痛点在于无法在任务适应的同时,有效保留预训练的视觉知识。

核心思路:论文的核心思路是,将视觉知识遗忘问题归因于视觉表征的过度压缩,导致关键信息的丢失。通过信息瓶颈原理,将视觉表征的退化与有效秩的降低联系起来。因此,论文提出通过调节梯度更新,保持视觉表征的有效秩,从而缓解过度压缩,保留预训练的视觉知识。这样设计的目的是在任务适应的同时,显式地保护视觉表征的丰富性和完整性。

技术框架:整体框架包括以下几个主要步骤:1) 使用MLLM进行指令微调;2) 计算视觉表征的有效秩;3) 使用模态解耦梯度下降(MDGD)方法调节梯度更新,以保持视觉表征的有效秩;4) 使用梯度掩码进行参数高效微调(PEFT),减少计算开销。MDGD方法是核心模块,负责在梯度更新过程中解耦视觉和文本模态,避免视觉表征的过度压缩。

关键创新:最重要的技术创新点是模态解耦梯度下降(MDGD)方法。与现有方法不同,MDGD显式地将视觉理解的优化与任务特定对齐分离,通过调节梯度更新来保持视觉表征的有效秩。这种方法能够更有效地保留预训练的视觉知识,同时实现对新任务的适应。此外,使用梯度掩码进行参数高效微调也是一个创新点,能够在减少计算开销的同时,保留丰富的视觉表征。

关键设计:MDGD的关键设计在于如何调节梯度更新。具体来说,论文可能设计了一个损失函数,用于衡量视觉表征的有效秩与目标秩之间的差距,并将其加入到总损失函数中。梯度掩码的关键设计在于如何选择需要更新的参数子集。论文可能采用了一些启发式规则或学习算法来选择这些参数,以在计算效率和性能之间取得平衡。具体的参数设置、损失函数和网络结构等细节需要在论文中进一步查找。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MDGD方法在各种下游任务和骨干MLLM上均能有效缓解视觉遗忘,同时实现对新任务的强大适应。具体的性能数据和提升幅度需要在论文中查找。例如,MDGD可能在某个视觉问答任务上,相比于直接微调方法,准确率提升了X%。

🎯 应用场景

该研究成果可广泛应用于需要多模态理解和推理的场景,如智能问答、图像描述、视觉导航、机器人控制等。通过缓解视觉知识遗忘,可以提升MLLM在这些场景中的性能和鲁棒性,使其能够更好地理解和利用视觉信息,从而实现更智能、更可靠的应用。

📄 摘要(原文)

Recent MLLMs have shown emerging visual understanding and reasoning abilities after being pre-trained on large-scale multimodal datasets. Unlike pre-training, where MLLMs receive rich visual-text alignment, instruction-tuning is often text-driven with weaker visual supervision, leading to the degradation of pre-trained visual understanding and causing visual forgetting. Existing approaches, such as direct fine-tuning and continual learning methods, fail to explicitly address this issue, often compressing visual representations and prioritizing task alignment over visual retention, which further worsens visual forgetting. To overcome this limitation, we introduce a novel perspective leveraging effective rank to quantify the degradation of visual representation richness, interpreting this degradation through the information bottleneck principle as excessive compression that leads to the degradation of crucial pre-trained visual knowledge. Building on this view, we propose a modality-decoupled gradient descent (MDGD) method that regulates gradient updates to maintain the effective rank of visual representations while mitigating the over-compression effects described by the information bottleneck. By explicitly disentangling the optimization of visual understanding from task-specific alignment, MDGD preserves pre-trained visual knowledge while enabling efficient task adaptation. To enable lightweight instruction-tuning, we further develop a memory-efficient fine-tuning approach using gradient masking, which selectively updates a subset of model parameters to enable parameter-efficient fine-tuning (PEFT), reducing computational overhead while preserving rich visual representations. Extensive experiments across various downstream tasks and backbone MLLMs demonstrate that MDGD effectively mitigates visual forgetting from pre-trained tasks while enabling strong adaptation to new tasks.