HiDe-LLaVA: Hierarchical Decoupling for Continual Instruction Tuning of Multimodal Large Language Model

📄 arXiv: 2503.12941v2 📥 PDF

作者: Haiyang Guo, Fanhu Zeng, Ziwei Xiang, Fei Zhu, Da-Han Wang, Xu-Yao Zhang, Cheng-Lin Liu

分类: cs.CL, cs.LG

发布日期: 2025-03-17 (更新: 2025-05-29)

备注: ACL 2025 (Main)

🔗 代码/项目: GITHUB


💡 一句话要点

HiDe-LLaVA:提出分层解耦方法,用于多模态大语言模型持续指令调优

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 持续学习 指令调优 分层解耦 中心核对齐

📋 核心要点

  1. 现有持续指令调优方法在提升多模态大语言模型性能时,往往牺牲内存效率,导致整体效率降低。
  2. 论文提出一种基于中心核对齐相似度的分层解耦框架,实现任务特定扩展和通用任务融合,提升模型性能。
  3. 实验结果表明,该方法在性能上显著优于现有方法,并在更具挑战性的新基准测试中进行了验证。

📝 摘要(中文)

指令调优被广泛应用于通过在特定任务数据集上训练预训练的多模态大语言模型(MLLM),从而提高其性能,使其更好地理解人类指令。然而,在实际场景中,同时收集所有可能的指令数据集是不可行的。因此,使MLLM具备持续指令调优能力对于保持其适应性至关重要。然而,现有方法通常以牺牲内存效率为代价来换取性能提升,从而显著降低了整体效率。在本文中,我们提出了一种基于中心核对齐(CKA)相似度在不同模型层上变化的、特定任务扩展和通用任务融合框架。此外,我们分析了现有基准测试中存在的信息泄露问题,并提出了一个更具挑战性的新基准来合理评估不同方法的性能。综合实验表明,与现有的最先进方法相比,我们的方法在性能上有了显著的提高。代码和数据集已在https://github.com/Ghy0501/HiDe-LLaVA上发布。

🔬 方法详解

问题定义:论文旨在解决多模态大语言模型(MLLM)在持续指令调优过程中,现有方法存在的内存效率低下的问题。现有的持续学习方法,为了避免灾难性遗忘,通常会增加模型参数或者保留历史数据,这导致了内存占用过高,限制了模型在资源受限环境中的应用。

核心思路:论文的核心思路是利用不同任务在模型不同层产生的特征表示的差异性,通过中心核对齐(CKA)相似度来衡量这种差异,并以此为依据进行分层解耦。具体来说,针对特定任务扩展模型的部分层,而通用任务则融合所有层的知识,从而在性能和效率之间取得平衡。

技术框架:HiDe-LLaVA框架主要包含两个阶段:任务特定扩展和任务通用融合。在任务特定扩展阶段,首先使用CKA相似度分析不同任务在模型各层的激活情况,确定需要扩展的层。然后,针对这些层添加新的参数,专门学习特定任务的知识。在任务通用融合阶段,利用所有层的参数,学习通用任务的知识,从而实现知识的迁移和共享。

关键创新:该方法最重要的创新点在于提出了基于CKA相似度的分层解耦策略。与以往的全局扩展或全局融合方法不同,HiDe-LLaVA能够根据任务的特性,自适应地调整模型的结构,从而更有效地利用模型参数,提高内存效率。此外,论文还提出了一个新的、更具挑战性的基准测试,用于更合理地评估持续学习方法的性能。

关键设计:CKA相似度的计算被用于确定哪些层需要进行任务特定的扩展。具体而言,对于每个任务,计算其在模型各层的激活值与其他任务激活值的CKA相似度,如果相似度低于某个阈值,则认为该层需要进行扩展。此外,损失函数的设计也至关重要,需要平衡特定任务的性能和通用任务的性能。具体的损失函数形式在论文中进行了详细描述,可能包括交叉熵损失、知识蒸馏损失等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,HiDe-LLaVA在持续指令调优任务上取得了显著的性能提升,优于现有的最先进方法。具体而言,在提出的新基准测试中,HiDe-LLaVA在多个指标上都取得了领先,并且在内存效率方面也表现出色。具体的性能提升幅度和对比基线数据可以在论文的实验部分找到。

🎯 应用场景

该研究成果可应用于各种需要持续学习和适应新任务的多模态大语言模型场景,例如智能客服、自动驾驶、医疗诊断等。通过高效地学习和整合新知识,模型可以不断提升其在复杂环境中的理解和决策能力,从而提供更智能、更个性化的服务。未来,该方法有望推动多模态人工智能在实际应用中的普及。

📄 摘要(原文)

Instruction tuning is widely used to improve a pre-trained Multimodal Large Language Model (MLLM) by training it on curated task-specific datasets, enabling better comprehension of human instructions. However, it is infeasible to collect all possible instruction datasets simultaneously in real-world scenarios. Thus, enabling MLLM with continual instruction tuning is essential for maintaining their adaptability. However, existing methods often trade off memory efficiency for performance gains, significantly compromising overall efficiency. In this paper, we propose a task-specific expansion and task-general fusion framework based on the variations in Centered Kernel Alignment (CKA) similarity across different model layers when trained on diverse datasets. Furthermore, we analyze the information leakage present in the existing benchmark and propose a new and more challenging benchmark to rationally evaluate the performance of different methods. Comprehensive experiments showcase a significant performance improvement of our method compared to existing state-of-the-art methods. Code and dataset are released at https://github.com/Ghy0501/HiDe-LLaVA.