SPARC: Subspace-Aware Prompt Adaptation for Robust Continual Learning in LLMs
作者: Dinithi Jayasuriya, Sina Tayebati, Davide Ettori, Ranganath Krishnan, Amit Ranjan Trivedi
分类: cs.LG, cs.AI, cs.CL
发布日期: 2025-02-05
💡 一句话要点
SPARC:基于子空间的提示微调,提升LLM在持续学习中的鲁棒性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 持续学习 大型语言模型 提示微调 主成分分析 低秩适应 知识保留 参数效率
📋 核心要点
- 大型语言模型在持续学习中面临灾难性遗忘问题,现有方法通常需要大量计算资源。
- SPARC通过PCA降维,在低维子空间中优化提示,减少计算开销,同时保留预训练知识。
- 实验表明,SPARC在SuperGLUE上实现了高知识保留和准确率提升,且仅需微调少量参数。
📝 摘要(中文)
本文提出了一种轻量级的LLM持续学习框架SPARC,它通过在低维空间中进行提示微调来实现高效的任务适应。SPARC利用主成分分析(PCA)识别训练数据的紧凑子空间,并在该子空间中优化提示,从而提高训练效率,因为它将更新集中在最相关的特征上,同时减少计算开销。此外,由于模型内部结构保持不变,因此可以完全保留从预训练中获得的广泛知识,确保先前学习的信息在适应过程中不会受到损害。该方法在任务增量和领域增量持续学习设置中均实现了高知识保留,同时仅微调了0.04%的模型参数。通过集成LoRA,SPARC增强了对计算约束的适应性,从而可以在准确性和训练成本之间进行权衡。在SuperGLUE基准上的实验表明,基于PCA的提示微调与LoRA相结合,在仅使用1%的模型参数的情况下,保持了完整的知识保留并提高了准确性。这些结果确立了SPARC作为LLM中可扩展且资源高效的持续学习解决方案。
🔬 方法详解
问题定义:大型语言模型在持续学习场景中,当学习新任务时,容易遗忘之前学习的任务知识,即灾难性遗忘问题。现有的持续学习方法,如微调整个模型或添加额外的模块,通常需要大量的计算资源和存储空间,难以适应资源受限的场景。
核心思路:SPARC的核心思路是通过在低维子空间中进行提示微调,来高效地适应新任务,同时避免灾难性遗忘。通过PCA降维,将提示向量投影到包含主要信息量的子空间中,从而减少需要优化的参数数量,降低计算成本。这样设计的原因是,并非所有提示向量的维度都对特定任务的学习有同等重要的作用,通过PCA可以提取出最重要的特征。
技术框架:SPARC的整体框架包括以下几个主要阶段:1) 使用预训练的LLM作为基础模型。2) 使用PCA对训练数据进行降维,得到一个低维子空间。3) 在该子空间中优化提示向量,以适应新的任务。4) 可选地,集成LoRA以进一步提高参数效率和适应性。整个过程保持LLM的原始参数不变,只调整提示向量。
关键创新:SPARC最重要的技术创新点在于利用PCA进行子空间提示微调。与传统的提示微调方法相比,SPARC通过降维显著减少了需要优化的参数数量,从而提高了训练效率和泛化能力。与微调整个模型相比,SPARC避免了灾难性遗忘,并保留了预训练模型的知识。
关键设计:SPARC的关键设计包括:1) 使用PCA选择合适的子空间维度,平衡计算成本和性能。2) 使用合适的优化器和学习率来训练提示向量。3) 可选地,集成LoRA来进一步减少参数数量,并提高对计算资源的适应性。损失函数通常是交叉熵损失,用于衡量模型预测和真实标签之间的差异。
🖼️ 关键图片
📊 实验亮点
SPARC在SuperGLUE基准测试中表现出色,在保持完整知识保留的同时,提高了准确性。该方法仅微调了0.04%的模型参数,并且通过与LoRA集成,仅使用1%的模型参数即可实现与全参数微调相当的性能。这些结果表明,SPARC是一种高效且资源友好的持续学习解决方案。
🎯 应用场景
SPARC适用于各种需要持续学习的LLM应用场景,例如:在线客服、智能助手、内容生成等。它可以帮助LLM快速适应新的用户需求和领域知识,而无需重新训练整个模型。这对于资源受限的设备和需要快速部署的场景尤其有价值,例如边缘计算设备或移动应用。
📄 摘要(原文)
We propose SPARC, a lightweight continual learning framework for large language models (LLMs) that enables efficient task adaptation through prompt tuning in a lower-dimensional space. By leveraging principal component analysis (PCA), we identify a compact subspace of the training data. Optimizing prompts in this lower-dimensional space enhances training efficiency, as it focuses updates on the most relevant features while reducing computational overhead. Furthermore, since the model's internal structure remains unaltered, the extensive knowledge gained from pretraining is fully preserved, ensuring that previously learned information is not compromised during adaptation. Our method achieves high knowledge retention in both task-incremental and domain-incremental continual learning setups while fine-tuning only 0.04% of the model's parameters. Additionally, by integrating LoRA, we enhance adaptability to computational constraints, allowing for a tradeoff between accuracy and training cost. Experiments on the SuperGLUE benchmark demonstrate that our PCA-based prompt tuning combined with LoRA maintains full knowledge retention while improving accuracy, utilizing only 1% of the model's parameters. These results establish our approach as a scalable and resource-efficient solution for continual learning in LLMs.