Model-Dowser: Data-Free Importance Probing to Mitigate Catastrophic Forgetting in Multimodal Large Language Models
作者: Hyeontaek Hwang, Nguyen Dinh Son, Daeyoung Kim
分类: cs.CL
发布日期: 2026-02-04
💡 一句话要点
Model-Dowser:一种数据无关的重要性探测方法,用于缓解多模态大语言模型中的灾难性遗忘
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 灾难性遗忘 稀疏微调 重要性评估 数据无关
📋 核心要点
- 现有MLLM微调方法在缓解灾难性遗忘方面存在局限,尤其是在微调更深层网络或模型规模增大时效果不佳。
- Model-Dowser通过评估模型参数的重要性,选择性地保留重要参数并更新其余参数,从而缓解灾难性遗忘。
- 实验表明,Model-Dowser在LLaVA和NVILA等模型上优于现有方法,同时保持了资源效率和可扩展性。
📝 摘要(中文)
在特定任务数据上微调多模态大语言模型(MLLM)是提高下游应用性能的有效方法。然而,这种适应通常会导致预训练任务的泛化能力下降,这种现象被称为灾难性遗忘。现有的旨在缓解此问题的方法在微调语言解码器的更深层时变得无效,或者随着模型尺寸的增加而扩展性较差。为了解决这些限制,我们提出了一种新的MLLM稀疏微调方法Model-Dowser。Model-Dowser通过联合考虑权重幅度、输入激活和输出敏感性,针对每个模型参数,测量关于预训练泛化(在下游适应之前)的原则性重要性得分。在微调期间,Model-Dowser选择性地保留高重要性参数并更新其余参数。在两个代表性的MLLM,LLaVA和NVILA上的综合实验表明,Model-Dowser有效地缓解了灾难性遗忘,并且始终优于先前的方法,同时保持了资源效率并且可扩展到数十亿参数的模型。
🔬 方法详解
问题定义:论文旨在解决多模态大语言模型(MLLM)在微调过程中出现的灾难性遗忘问题。现有方法在微调更深层网络或处理更大规模模型时,缓解灾难性遗忘的效果不佳,无法兼顾性能和效率。
核心思路:Model-Dowser的核心思路是识别并保护对预训练任务至关重要的模型参数。通过在微调过程中选择性地更新参数,避免过度调整重要参数,从而保留模型的泛化能力。这种方法类似于在地震中寻找水源(dowser),即找到模型中最重要的部分并加以保护。
技术框架:Model-Dowser主要包含两个阶段:1) 重要性评估阶段:在下游任务微调之前,计算每个模型参数的重要性得分,该得分综合考虑了权重幅度、输入激活和输出敏感性。2) 稀疏微调阶段:根据计算得到的重要性得分,选择性地更新模型参数。高重要性参数被保留,而低重要性参数被更新,从而实现稀疏微调。
关键创新:Model-Dowser的关键创新在于提出了一种数据无关的重要性评估方法。与需要额外数据或计算成本的方法不同,Model-Dowser仅利用模型自身的参数和激活信息来评估参数的重要性,从而提高了效率和可扩展性。此外,该方法综合考虑了权重幅度、输入激活和输出敏感性,更全面地评估了参数的重要性。
关键设计:Model-Dowser的重要性得分计算公式是其关键设计之一。具体而言,该得分综合考虑了以下三个因素:1) 权重幅度:较大的权重通常更重要。2) 输入激活:频繁激活的神经元更重要。3) 输出敏感性:对输出影响较大的参数更重要。这些因素被组合成一个综合得分,用于指导参数的选择性更新。具体的损失函数和网络结构沿用了现有MLLM的设置,重点在于微调策略的改进。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Model-Dowser在LLaVA和NVILA等模型上显著优于现有方法,能够有效缓解灾难性遗忘。例如,在保持预训练任务性能的同时,Model-Dowser在下游任务上的性能也得到了提升。此外,Model-Dowser的稀疏微调特性使其在参数更新量方面远低于全参数微调,从而降低了计算成本。
🎯 应用场景
Model-Dowser可应用于各种需要微调的多模态大语言模型,例如图像描述、视觉问答、多模态对话等。该方法能够有效缓解灾难性遗忘,提高模型在预训练任务上的泛化能力,从而提升模型在实际应用中的稳定性和可靠性。此外,Model-Dowser的稀疏微调特性使其更具资源效率,适用于部署在计算资源有限的设备上。
📄 摘要(原文)
Fine-tuning Multimodal Large Language Models (MLLMs) on task-specific data is an effective way to improve performance on downstream applications. However, such adaptation often leads to a degradation in generalization on pretrained tasks, a phenomenon known as Catastrophic Forgetting. Existing methods that aim to mitigate this issue either become ineffective when fine-tuning deeper layers of the language decoder or scale poorly with increasing model size. To address these limitations, we propose Model-Dowser, a novel sparse fine-tuning approach for MLLMs. Model-Dowser measures a principled importance score for each model parameter with respect to pretrained generalization (prior to downstream adaptation) by jointly considering weight magnitudes, input activations, and output sensitivities. During fine-tuning, Model-Dowser selectively preserves high-importance parameters and updates the remaining. Comprehensive experiments on two representative MLLMs, LLaVA and NVILA, demonstrate that Model-Dowser effectively mitigates catastrophic forgetting and consistently outperforms prior methods, while remaining resource-efficient and scalable to multi-billion-parameter models.