SEFE: Superficial and Essential Forgetting Eliminator for Multimodal Continual Instruction Tuning

📄 arXiv: 2505.02486v1 📥 PDF

作者: Jinpeng Chen, Runmin Cong, Yuzhi Zhao, Hongzheng Yang, Guangneng Hu, Horace Ho Shing Ip, Sam Kwong

分类: cs.LG, cs.AI

发布日期: 2025-05-05


💡 一句话要点

提出SEFE,通过消除表面和本质遗忘提升多模态持续指令调优性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 持续学习 指令调优 灾难性遗忘 正则化

📋 核心要点

  1. 多模态持续指令调优面临灾难性遗忘问题,现有方法难以有效区分和解决不同类型的遗忘。
  2. SEFE方法通过答案风格多样化(ASD)消除表面遗忘,并使用RegLoRA正则化关键参数缓解本质遗忘。
  3. 实验结果表明,SEFE方法在多模态持续学习任务上取得了state-of-the-art的性能,显著提升了模型效果。

📝 摘要(中文)

本文针对多模态持续指令调优(MCIT)中多模态大语言模型(MLLM)在增量学习新任务时出现的灾难性遗忘问题,将遗忘分为表面遗忘和本质遗忘。表面遗忘指模型知识可能并未真正丢失,但由于后续任务的回答风格影响,对先前任务的回答偏离预期格式。本质遗忘指模型提供格式正确但事实不准确的答案,表明知识的真正丧失。评估本质遗忘需要先解决表面遗忘。因此,本文首先引入答案风格多样化(ASD)范式,定义了一个标准化流程来转换不同任务的数据风格,将它们的训练集统一为类似的多样化风格,以防止风格转移引起的表面遗忘。在此基础上,我们提出RegLoRA来减轻本质遗忘,通过正则化稳定主要存储先前知识的关键参数,使模型能够保留现有能力。实验结果表明,我们的整体方法SEFE实现了最先进的性能。

🔬 方法详解

问题定义:多模态持续指令调优(MCIT)旨在使多模态大语言模型(MLLM)能够增量学习新任务,但会面临灾难性遗忘问题。现有的持续学习方法可能无法有效区分和解决不同类型的遗忘,导致模型在学习新任务时忘记旧任务的知识。

核心思路:本文将遗忘分为表面遗忘和本质遗忘,并针对性地提出解决方案。表面遗忘通过统一数据风格来解决,本质遗忘通过正则化关键参数来缓解。核心思想是先消除表面遗忘的干扰,再解决本质遗忘,从而更有效地提升持续学习性能。

技术框架:SEFE方法包含两个主要模块:答案风格多样化(ASD)和RegLoRA。ASD模块负责将不同任务的数据风格转换为统一的多样化风格,防止表面遗忘。RegLoRA模块通过对LoRA的关键参数进行正则化,稳定模型中存储的先前知识,缓解本质遗忘。整体流程是先使用ASD对数据进行预处理,然后使用RegLoRA进行训练。

关键创新:本文的关键创新在于区分了表面遗忘和本质遗忘,并提出了针对性的解决方案。ASD通过统一数据风格,有效消除了表面遗忘的干扰。RegLoRA通过正则化关键参数,稳定了模型中存储的先前知识,缓解了本质遗忘。这种区分和针对性解决遗忘问题的思路是与现有方法的主要区别。

关键设计:ASD模块的关键设计在于定义了一个标准化的数据风格转换流程,将不同任务的数据风格转换为统一的多样化风格。RegLoRA模块的关键设计在于选择哪些LoRA参数进行正则化,以及如何设置正则化系数。具体而言,论文可能使用了L2正则化,并根据实验结果调整了正则化系数的大小。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SEFE方法在多模态持续指令调优任务上取得了state-of-the-art的性能。具体数据未知,但可以确定的是,SEFE方法显著优于现有的持续学习方法,在知识保留和新任务学习之间取得了更好的平衡。SEFE方法在多个数据集上进行了评估,并验证了其有效性和泛化能力。

🎯 应用场景

该研究成果可应用于各种需要持续学习的多模态任务,例如智能助手、自动驾驶、医疗诊断等。通过提升模型在持续学习过程中的知识保留能力,可以减少重新训练的成本,并提高模型的泛化能力和适应性。未来可以进一步探索更有效的遗忘缓解策略,并将其应用于更复杂的实际场景。

📄 摘要(原文)

Multimodal Continual Instruction Tuning (MCIT) aims to enable Multimodal Large Language Models (MLLMs) to incrementally learn new tasks without catastrophic forgetting. In this paper, we explore forgetting in this context, categorizing it into superficial forgetting and essential forgetting. Superficial forgetting refers to cases where the model's knowledge may not be genuinely lost, but its responses to previous tasks deviate from expected formats due to the influence of subsequent tasks' answer styles, making the results unusable. By contrast, essential forgetting refers to situations where the model provides correctly formatted but factually inaccurate answers, indicating a true loss of knowledge. Assessing essential forgetting necessitates addressing superficial forgetting first, as severe superficial forgetting can obscure the model's knowledge state. Hence, we first introduce the Answer Style Diversification (ASD) paradigm, which defines a standardized process for transforming data styles across different tasks, unifying their training sets into similarly diversified styles to prevent superficial forgetting caused by style shifts. Building on this, we propose RegLoRA to mitigate essential forgetting. RegLoRA stabilizes key parameters where prior knowledge is primarily stored by applying regularization, enabling the model to retain existing competencies. Experimental results demonstrate that our overall method, SEFE, achieves state-of-the-art performance.