SEEKR: Selective Attention-Guided Knowledge Retention for Continual Learning of Large Language Models

📄 arXiv: 2411.06171v1 📥 PDF

作者: Jinghan He, Haiyun Guo, Kuan Zhu, Zihan Zhao, Ming Tang, Jinqiao Wang

分类: cs.CL, cs.LG

发布日期: 2024-11-09

备注: EMNLP2024


💡 一句话要点

提出SEEKR方法,通过选择性注意力蒸馏提升大语言模型持续学习的数据效率。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 持续学习 大语言模型 知识蒸馏 注意力机制 数据效率

📋 核心要点

  1. 现有持续学习方法在利用先前任务知识方面存在不足,需要大量回放数据以缓解灾难性遗忘。
  2. SEEKR通过选择性注意力蒸馏,聚焦于模型中最重要的注意力头,实现更高效的知识保留。
  3. 实验表明,SEEKR仅使用少量回放数据即可达到甚至超过现有方法的性能,显著提升数据效率。

📝 摘要(中文)

持续学习对于语言模型动态适应不断变化的现实世界需求至关重要。为了缓解持续学习中的灾难性遗忘问题,数据回放已被证明是一种简单有效的策略,而后续的基于数据回放的知识蒸馏可以进一步提高性能。然而,现有方法未能充分利用先前任务中模型所嵌入的知识,导致需要相对大量的回放样本才能取得良好的结果。本文首先探索并强调了注意力权重在知识保留中的重要性,然后提出了一种选择性注意力引导的知识保留方法(SEEKR),用于大语言模型(LLM)的基于数据高效回放的持续学习。具体而言,SEEKR对选定的注意力头执行注意力蒸馏,以实现更细粒度的知识保留,其中提出的基于可遗忘性和基于任务敏感性的度量用于识别最有价值的注意力头。在LLM的两个持续学习基准上的实验结果表明,SEEKR在性能和效率方面均优于现有方法。SEEKR仅使用其他方法1/10的回放数据即可实现可比甚至更好的性能,并将回放数据的比例降低至1%。

🔬 方法详解

问题定义:论文旨在解决大语言模型在持续学习过程中,由于灾难性遗忘导致性能下降的问题。现有基于数据回放的方法虽然有效,但需要大量的回放数据,效率较低,并且未能充分利用先前任务学习到的知识。

核心思路:论文的核心思路是,并非所有知识都同等重要,注意力头在模型中扮演着不同的角色。通过选择性地保留和蒸馏那些对先前任务至关重要的注意力头,可以更有效地缓解灾难性遗忘,并减少对大量回放数据的依赖。

技术框架:SEEKR方法主要包含以下几个阶段:1) 使用可遗忘性和任务敏感性指标来评估每个注意力头的重要性。可遗忘性衡量注意力头在后续任务中发生变化的程度,任务敏感性衡量注意力头对特定任务的贡献。2) 基于这些指标,选择最重要的注意力头进行知识蒸馏。3) 在新任务上进行训练,同时通过注意力蒸馏保留先前任务的知识。

关键创新:SEEKR的关键创新在于提出了基于可遗忘性和任务敏感性的注意力头选择机制。这种选择机制能够识别出对先前任务至关重要,且容易被后续任务遗忘的注意力头,从而实现更细粒度的知识保留。与现有方法相比,SEEKR能够更有效地利用模型中已有的知识,减少对大量回放数据的需求。

关键设计:SEEKR的关键设计包括:1) 可遗忘性指标的计算方式,例如可以计算注意力权重在不同任务上的差异。2) 任务敏感性指标的计算方式,例如可以计算注意力权重对任务损失的影响。3) 如何将选择的注意力头用于知识蒸馏,例如可以使用KL散度来衡量新模型和旧模型在这些注意力头上的输出分布的差异,并将其作为损失函数的一部分。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SEEKR在两个持续学习基准上均优于现有方法。具体而言,SEEKR仅使用现有方法1/10的回放数据,即可达到与其相当甚至更好的性能。在某些情况下,SEEKR甚至可以将回放数据的比例降低至1%,同时保持良好的性能。

🎯 应用场景

SEEKR方法可应用于各种需要持续学习的大语言模型场景,例如:在线客服、智能助手、机器翻译等。通过高效地适应新知识,模型可以不断提升性能,更好地满足用户需求。该方法还有助于降低模型训练和部署的成本,使其更易于在资源受限的环境中使用。

📄 摘要(原文)

Continual learning (CL) is crucial for language models to dynamically adapt to the evolving real-world demands. To mitigate the catastrophic forgetting problem in CL, data replay has been proven a simple and effective strategy, and the subsequent data-replay-based distillation can further enhance the performance. However, existing methods fail to fully exploit the knowledge embedded in models from previous tasks, resulting in the need for a relatively large number of replay samples to achieve good results. In this work, we first explore and emphasize the importance of attention weights in knowledge retention, and then propose a SElective attEntion-guided Knowledge Retention method (SEEKR) for data-efficient replay-based continual learning of large language models (LLMs). Specifically, SEEKR performs attention distillation on the selected attention heads for finer-grained knowledge retention, where the proposed forgettability-based and task-sensitivity-based measures are used to identify the most valuable attention heads. Experimental results on two continual learning benchmarks for LLMs demonstrate the superiority of SEEKR over the existing methods on both performance and efficiency. Explicitly, SEEKR achieves comparable or even better performance with only 1/10 of the replayed data used by other methods, and reduces the proportion of replayed data to 1%.