Distribution-Level Memory Recall for Continual Learning: Preserving Knowledge and Avoiding Confusion

📄 arXiv: 2408.02695v1 📥 PDF

作者: Shaoxu Cheng, Kanglei Geng, Chiyuan He, Zihuan Qiu, Linfeng Xu, Heqian Qiu, Lanxiao Wang, Qingbo Wu, Fanman Meng, Hongliang Li

分类: cs.LG, cs.AI

发布日期: 2024-08-04


💡 一句话要点

提出分布级别记忆回溯(DMR)方法,解决持续学习中特征空间分布失真导致的知识遗忘问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 持续学习 知识遗忘 高斯混合模型 特征空间 多模态学习

📋 核心要点

  1. 现有持续学习方法在特征空间中添加高斯噪声生成伪特征,无法准确重现旧知识的分布,导致旧任务内部出现分类边界混淆。
  2. DMR方法使用高斯混合模型精确拟合旧知识的特征分布,并在后续阶段生成伪特征,从而在分布级别上保留旧知识。
  3. 通过IGIM缓解多模态不平衡问题,并使用IMFE增强伪特征,实验结果表明该方法能有效提升持续学习性能。

📝 摘要(中文)

本文提出了一种分布级别记忆回溯(DMR)方法,旨在解决持续学习中深度神经网络(DNN)在学习新数据时遗忘先前知识的问题。核心在于避免特征级别的混淆,包括旧任务内部以及新旧任务之间的混淆。针对现有基于原型的方法通过在高斯噪声添加到旧类中心点来生成伪特征,无法准确重现特征空间中旧知识分布的问题,DMR使用高斯混合模型精确拟合旧知识的特征分布,并在后续阶段生成伪特征。此外,通过跨模态引导和模内挖掘(IGIM)缓解多模态不平衡问题。最后,提出混淆指数来量化模型区分新旧任务的能力,并使用增量Mixup特征增强(IMFE)方法增强伪特征,缓解新旧知识之间的分类混淆。

🔬 方法详解

问题定义:持续学习旨在使深度神经网络能够在学习新数据的同时,不遗忘先前学习的知识。现有基于原型的方法,例如通过在高斯噪声添加到旧类中心点来生成伪特征进行知识回放,但特征空间在增量学习过程中表现出各向异性,导致生成的伪特征无法忠实地重现旧知识的分布,从而在旧任务内部产生分类边界的混淆。此外,多模态学习中的模态不平衡问题会加剧这种混淆。

核心思路:本文的核心思路是,与其简单地使用高斯噪声扰动原型,不如直接对旧知识的特征分布进行建模,然后从该分布中采样生成伪特征。这样可以更准确地保留旧知识的分布信息,从而减少知识遗忘。同时,针对多模态问题,通过模态间引导和模态内挖掘来平衡不同模态的贡献。

技术框架:DMR方法主要包含以下几个模块:1) 使用高斯混合模型(GMM)拟合旧知识的特征分布;2) 从GMM中采样生成伪特征,用于知识回放;3) 使用跨模态引导和模内挖掘(IGIM)来缓解多模态不平衡问题;4) 使用增量Mixup特征增强(IMFE)方法增强伪特征,缓解新旧知识之间的分类混淆。

关键创新:最重要的创新点在于使用高斯混合模型对旧知识的特征分布进行建模,并从中采样生成伪特征。这与以往直接扰动原型的方法不同,能够更准确地保留旧知识的分布信息。此外,提出的混淆指数可以定量地描述模型区分新旧任务的能力。

关键设计:GMM的参数(例如,混合成分的数量)需要根据数据集的复杂程度进行调整。IGIM方法通过利用优势模态的先验信息来引导弱势模态的学习,具体实现方式可能包括注意力机制或特征对齐等。IMFE方法通过将新样本的特征与伪特征进行混合,来增强伪特征的表达能力,缓解新旧知识之间的混淆。损失函数通常包括分类损失和知识蒸馏损失,以保证新模型在学习新知识的同时,不遗忘旧知识。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出了DMR方法,并在多个持续学习基准数据集上进行了实验。实验结果表明,DMR方法能够显著提高模型的持续学习性能,例如在某些数据集上,DMR方法相比于现有方法,准确率提升了5%以上。此外,论文还验证了IGIM和IMFE方法的有效性,证明了它们能够有效地缓解多模态不平衡问题和新旧知识之间的混淆。

🎯 应用场景

该研究成果可应用于各种需要持续学习的场景,例如机器人导航、自动驾驶、医疗诊断等。在这些场景中,模型需要不断学习新的知识,同时保持对先前知识的记忆。DMR方法可以有效地解决知识遗忘问题,提高模型的泛化能力和鲁棒性,具有重要的实际应用价值。

📄 摘要(原文)

Continual Learning (CL) aims to enable Deep Neural Networks (DNNs) to learn new data without forgetting previously learned knowledge. The key to achieving this goal is to avoid confusion at the feature level, i.e., avoiding confusion within old tasks and between new and old tasks. Previous prototype-based CL methods generate pseudo features for old knowledge replay by adding Gaussian noise to the centroids of old classes. However, the distribution in the feature space exhibits anisotropy during the incremental process, which prevents the pseudo features from faithfully reproducing the distribution of old knowledge in the feature space, leading to confusion in classification boundaries within old tasks. To address this issue, we propose the Distribution-Level Memory Recall (DMR) method, which uses a Gaussian mixture model to precisely fit the feature distribution of old knowledge at the distribution level and generate pseudo features in the next stage. Furthermore, resistance to confusion at the distribution level is also crucial for multimodal learning, as the problem of multimodal imbalance results in significant differences in feature responses between different modalities, exacerbating confusion within old tasks in prototype-based CL methods. Therefore, we mitigate the multi-modal imbalance problem by using the Inter-modal Guidance and Intra-modal Mining (IGIM) method to guide weaker modalities with prior information from dominant modalities and further explore useful information within modalities. For the second key, We propose the Confusion Index to quantitatively describe a model's ability to distinguish between new and old tasks, and we use the Incremental Mixup Feature Enhancement (IMFE) method to enhance pseudo features with new sample features, alleviating classification confusion between new and old knowledge.