LoRASculpt: Sculpting LoRA for Harmonizing General and Specialized Knowledge in Multimodal Large Language Models

📄 arXiv: 2503.16843v1 📥 PDF

作者: Jian Liang, Wenke Huang, Guancheng Wan, Qu Yang, Mang Ye

分类: cs.CV

发布日期: 2025-03-21

备注: Accepted by CVPR 2025


💡 一句话要点

LoRASculpt:通过剪裁LoRA调和多模态大模型中的通用与特定知识

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大模型 低秩适应 LoRA 稀疏学习 知识协调 灾难性遗忘 视觉指令微调

📋 核心要点

  1. 现有MLLM微调方法在获取特定任务知识时,容易引入冗余参数,导致灾难性遗忘,损害通用知识。
  2. LoRASculpt通过稀疏更新LoRA,去除冗余参数,并引入冲突缓解正则化器,优化更新方向,从而调和通用与特定知识。
  3. 实验表明,LoRASculpt即使在高稀疏度下,也能提升MLLM的泛化能力和下游任务性能,有效缓解灾难性遗忘。

📝 摘要(中文)

多模态大型语言模型(MLLM)擅长跨模态和跨任务的泛化,但如何有效地将其适应于特定的下游任务,同时保留通用知识和专业知识仍然具有挑战性。虽然低秩适应(LoRA)被广泛用于在MLLM中高效地获取专业知识,但它在视觉指令微调期间会引入大量的有害冗余,从而加剧对通用知识的遗忘并降低下游任务的性能。为了解决这个问题,我们提出了LoRASculpt来消除有害的冗余参数,从而协调通用知识和专业知识。具体来说,在理论保证下,我们引入稀疏更新到LoRA中,以有效地丢弃冗余参数。此外,我们提出了一个冲突缓解正则化器来细化LoRA的更新轨迹,从而减轻与预训练权重的知识冲突。大量的实验结果表明,即使在非常高的稀疏度(≤5%)下,我们的方法也能同时提高泛化能力和下游任务性能。这证实了我们的方法有效地缓解了灾难性遗忘问题,并进一步促进了MLLM中的知识协调。

🔬 方法详解

问题定义:论文旨在解决多模态大语言模型(MLLM)在进行视觉指令微调时,使用LoRA引入的冗余参数导致灾难性遗忘的问题。现有方法在适应特定任务时,会损害模型原有的通用知识,降低整体性能。痛点在于如何在高效微调的同时,保持甚至提升模型的通用能力。

核心思路:论文的核心思路是通过剪裁LoRA中的冗余参数,并优化LoRA的更新方向,从而在保留特定任务知识的同时,减轻对通用知识的干扰。具体来说,通过引入稀疏性约束来识别并去除不重要的LoRA参数,并使用正则化方法来缓解LoRA更新与预训练模型权重之间的冲突。

技术框架:LoRASculpt的技术框架主要包含两个关键模块:稀疏LoRA更新和冲突缓解正则化。首先,通过在LoRA的更新过程中引入稀疏性约束,使得只有一部分参数得到更新,从而去除冗余参数。其次,设计一个冲突缓解正则化器,用于约束LoRA的更新方向,使其与预训练模型的权重保持一致,从而减少知识冲突。

关键创新:论文的关键创新在于将稀疏学习的思想引入到LoRA微调中,并提出了一个专门用于缓解知识冲突的正则化器。与传统的LoRA微调方法相比,LoRASculpt能够更有效地利用参数,避免引入不必要的冗余,从而在提升特定任务性能的同时,保持模型的通用能力。此外,冲突缓解正则化器的设计也考虑了预训练模型权重的重要性,避免了对已有知识的过度修改。

关键设计:在稀疏LoRA更新方面,论文可能采用了L1正则化或其他稀疏约束方法,以鼓励LoRA参数的稀疏性。稀疏度的具体设置(例如≤5%)是一个重要的超参数。冲突缓解正则化器可能基于余弦相似度或其他距离度量,用于衡量LoRA更新方向与预训练模型权重之间的差异。正则化系数的选择需要仔细调整,以平衡特定任务性能和通用知识的保留。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LoRASculpt即使在非常高的稀疏度(≤5%)下,也能同时提升MLLM的泛化能力和下游任务性能。这表明该方法能够有效地缓解灾难性遗忘问题,并促进知识协调。具体的性能提升数据(例如在特定数据集上的准确率提升)需要在论文中查找。

🎯 应用场景

LoRASculpt可应用于各种需要对多模态大模型进行高效微调的场景,例如视觉问答、图像描述、视觉推理等。该方法能够提升模型在特定任务上的性能,同时保持其通用能力,从而提高模型的实用性和泛化性。未来,该技术有望应用于更广泛的多模态学习任务,并促进多模态人工智能的发展。

📄 摘要(原文)

While Multimodal Large Language Models (MLLMs) excel at generalizing across modalities and tasks, effectively adapting them to specific downstream tasks while simultaneously retaining both general and specialized knowledge remains challenging. Although Low-Rank Adaptation (LoRA) is widely used to efficiently acquire specialized knowledge in MLLMs, it introduces substantial harmful redundancy during visual instruction tuning, which exacerbates the forgetting of general knowledge and degrades downstream task performance. To address this issue, we propose LoRASculpt to eliminate harmful redundant parameters, thereby harmonizing general and specialized knowledge. Specifically, under theoretical guarantees, we introduce sparse updates into LoRA to discard redundant parameters effectively. Furthermore, we propose a Conflict Mitigation Regularizer to refine the update trajectory of LoRA, mitigating knowledge conflicts with the pretrained weights. Extensive experimental results demonstrate that even at very high degree of sparsity ($\le$ 5%), our method simultaneously enhances generalization and downstream task performance. This confirms that our approach effectively mitigates the catastrophic forgetting issue and further promotes knowledge harmonization in MLLMs.