Exemplar Masking for Multimodal Incremental Learning

📄 arXiv: 2412.09549v1 📥 PDF

作者: Yi-Lun Lee, Chen-Yu Lee, Wei-Chen Chiu, Yi-Hsuan Tsai

分类: cs.CV

发布日期: 2024-12-12

备注: Project page: https://github.com/YiLunLee/Exemplar_Masking_MCIL

🔗 代码/项目: GITHUB


💡 一句话要点

提出Exemplar Masking框架,解决多模态增量学习中的存储和计算瓶颈。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 增量学习 持续学习 范例选择 参数高效微调 灾难性遗忘 注意力机制

📋 核心要点

  1. 多模态增量学习面临存储压力和计算资源限制,现有基于范例的方法难以有效平衡性能和效率。
  2. 提出Exemplar Masking框架,通过掩盖非重要token来减少范例存储大小,并结合参数高效微调降低计算负担。
  3. 实验表明,该方法在多模态数据集上表现出更高的效率和鲁棒性,有效缓解了灾难性遗忘问题。

📝 摘要(中文)

多模态增量学习需要在学习新知识的同时,消化来自多个模态的信息,并避免遗忘先前学习的知识。这项任务面临诸多挑战,主要包括基于范例的方法中多模态数据存储量大,以及在大型多模态模型上进行微调的计算需求高。本文利用参数高效的微调方案来减轻微调负担,并提出范例掩码框架以高效地重放旧知识。具体而言,基于注意力权重和不同模态之间的相关性,掩盖非重要token,从而显著减少范例的存储大小,并在相同的内存缓冲区下保存更多范例。此外,我们设计了一种多模态数据增强技术,以使范例多样化,从而重放先前的知识。在实验中,我们不仅在现有的多模态数据集上评估了我们的方法,还将ImageNet-R数据集扩展为多模态数据集,作为真实世界的应用,其中标题通过查询多模态大型语言模型(例如InstructBLIP)生成。大量实验表明,在相同的有限内存缓冲区下,我们的范例掩码框架更有效且更能抵抗灾难性遗忘。

🔬 方法详解

问题定义:多模态增量学习需要在持续学习新任务的同时,保留先前学习的知识。现有的基于范例的方法,由于需要存储大量的多模态数据,导致存储压力巨大。此外,直接在大型多模态模型上进行微调,计算成本非常高昂,限制了其在资源受限场景下的应用。

核心思路:论文的核心思路是通过掩盖范例中不重要的token,来减少每个范例的存储空间,从而在有限的存储预算下,可以保存更多的范例。同时,采用参数高效的微调方法,降低计算负担,从而实现高效的多模态增量学习。这种设计旨在平衡存储、计算和性能之间的关系。

技术框架:该框架主要包含以下几个阶段:1) 使用预训练的多模态模型作为基础模型。2) 在每个新任务到来时,选择一部分数据作为范例进行存储。3) 在存储范例时,使用注意力权重和跨模态相关性来确定哪些token是不重要的,并进行掩盖。4) 在学习新任务时,结合新数据和重放的旧范例进行训练,使用参数高效的微调方法更新模型参数。5) 使用多模态数据增强技术,增加范例的多样性。

关键创新:该论文的关键创新在于提出了Exemplar Masking框架,该框架能够有效地减少范例的存储空间,同时保持模型的性能。与传统的范例选择方法不同,该方法不是直接选择一部分数据作为范例,而是对每个范例进行压缩,从而在相同的存储空间下,可以保存更多的信息。此外,结合参数高效微调,降低了计算成本。

关键设计:在Exemplar Masking中,使用注意力权重来衡量token的重要性。具体来说,对于每个token,计算其在不同模态上的注意力权重的平均值,然后根据一个阈值来判断该token是否需要被掩盖。阈值的选择是一个关键的参数,需要根据具体的任务和数据集进行调整。此外,论文还设计了一种多模态数据增强技术,通过对不同模态的数据进行组合和变换,来增加范例的多样性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在相同的内存缓冲区下,Exemplar Masking框架比传统的范例选择方法更有效,能够显著降低灾难性遗忘。在多个多模态数据集上进行了评估,包括扩展的ImageNet-R数据集,证明了该方法的泛化能力。具体性能提升数据未知,但强调了在有限内存下的效率和鲁棒性。

🎯 应用场景

该研究成果可应用于智能客服、多模态机器人、医疗诊断等领域。例如,在智能客服中,可以不断学习新的用户问题和解决方案,同时保留先前学习的知识,从而提供更准确和个性化的服务。在医疗诊断中,可以结合医学影像和文本报告,不断学习新的病例,提高诊断的准确率和效率。

📄 摘要(原文)

Multimodal incremental learning needs to digest the information from multiple modalities while concurrently learning new knowledge without forgetting the previously learned information. There are numerous challenges for this task, mainly including the larger storage size of multimodal data in exemplar-based methods and the computational requirement of finetuning on huge multimodal models. In this paper, we leverage the parameter-efficient tuning scheme to reduce the burden of fine-tuning and propose the exemplar masking framework to efficiently replay old knowledge. Specifically, the non-important tokens are masked based on the attention weights and the correlation across different modalities, significantly reducing the storage size of an exemplar and consequently saving more exemplars under the same memory buffer. Moreover, we design a multimodal data augmentation technique to diversify exemplars for replaying prior knowledge. In experiments, we not only evaluate our method in existing multimodal datasets but also extend the ImageNet-R dataset to a multimodal dataset as a real-world application, where captions are generated by querying multimodal large language models (e.g., InstructBLIP). Extensive experiments show that our exemplar masking framework is more efficient and robust to catastrophic forgetting under the same limited memory buffer. Code is available at https://github.com/YiLunLee/Exemplar_Masking_MCIL.