Singular Value Fine-tuning for Few-Shot Class-Incremental Learning
作者: Zhiwu Wang, Yichen Wu, Renzhen Wang, Haokun Lin, Quanziang Wang, Qian Zhao, Deyu Meng
分类: cs.CV
发布日期: 2025-03-13
备注: 12 pages, 8 figures
💡 一句话要点
提出SVFCL,通过奇异值微调缓解Few-Shot增量学习中的过拟合问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Few-Shot学习 增量学习 奇异值分解 参数高效微调 过拟合 基础模型 灾难性遗忘
📋 核心要点
- FSCIL面临灾难性遗忘和过拟合双重挑战,尤其是在样本稀少和使用大型基础模型时,过拟合问题更加突出。
- SVFCL的核心思想是固定基础模型的奇异向量,仅微调奇异值,从而在减少可训练参数的同时,缓解过拟合和遗忘。
- 实验结果表明,SVFCL在多个基准数据集上优于现有的参数高效微调方法,并在缓解过拟合方面表现出显著优势。
📝 摘要(中文)
类增量学习(CIL)旨在顺序地整合新类的同时,防止对先前学习过的类别的灾难性遗忘。Few-shot CIL (FSCIL) 设定更具挑战性,因为它只为每个新类提供有限数量的样本,这不仅增加了标准CIL的挑战,还增加了过拟合的风险。虽然灾难性遗忘已被广泛研究,但FSCIL中的过拟合,尤其是在大型基础模型中,受到的关注较少。为了填补这一空白,我们提出了用于FSCIL的奇异值微调(SVFCL),并将其与现有的将基础模型适配于FSCIL的方法进行了比较,这些方法主要建立在参数高效微调(PEFT)方法之上,如提示调优和低秩适应(LoRA)。具体来说,SVFCL将奇异值分解应用于基础模型权重,保持奇异向量固定,同时为每个任务微调奇异值,然后合并它们。这种简单而有效的方法不仅缓解了遗忘问题,而且更有效地减轻了过拟合,同时显著减少了可训练参数。在四个基准数据集上的大量实验,以及可视化和消融研究,验证了SVFCL的有效性。代码将会开源。
🔬 方法详解
问题定义:论文旨在解决Few-Shot类增量学习(FSCIL)中,使用大型预训练模型时容易出现的过拟合问题。现有的参数高效微调方法(如Prompt Tuning和LoRA)虽然减少了训练参数,但在FSCIL场景下仍然存在过拟合的风险,导致模型在新类别上的泛化能力不足。
核心思路:论文的核心思路是对预训练模型的权重进行奇异值分解(SVD),并固定奇异向量,只对奇异值进行微调。这样做的目的是限制模型的学习能力,防止模型过度拟合新类别的数据,同时保留预训练模型中已经学习到的知识。通过对奇异值进行微调,模型可以在新类别上进行适应,而不会完全忘记之前学习过的类别。
技术框架:SVFCL的整体框架如下:1) 对预训练模型的权重进行奇异值分解,得到奇异向量和奇异值。2) 在增量学习的每个阶段,固定奇异向量,只对奇异值进行微调。3) 将微调后的奇异值与原始奇异向量重新组合,得到更新后的模型权重。4) 在下一个增量学习阶段,重复步骤1-3。
关键创新:SVFCL的关键创新在于利用奇异值分解来控制模型的学习能力。通过固定奇异向量,模型可以避免过度拟合新类别的数据,同时保留预训练模型中已经学习到的知识。与现有的参数高效微调方法相比,SVFCL能够更有效地缓解FSCIL中的过拟合问题。
关键设计:在SVFCL中,奇异值分解是关键步骤。论文中可能涉及对奇异值的微调策略,例如学习率的设置、正则化项的添加等。此外,如何将微调后的奇异值与原始奇异向量重新组合,也是一个重要的技术细节。具体的损失函数和网络结构可能与所使用的预训练模型有关,论文中应该会详细描述。
🖼️ 关键图片
📊 实验亮点
论文在四个基准数据集上进行了实验,结果表明SVFCL在FSCIL任务中优于现有的参数高效微调方法。具体而言,SVFCL在缓解过拟合方面表现出显著优势,并在新类别上的准确率和泛化能力方面取得了显著提升。实验结果还通过可视化和消融研究进一步验证了SVFCL的有效性。
🎯 应用场景
该研究成果可应用于图像识别、目标检测等领域,尤其是在数据稀缺且需要持续学习新类别的场景下,例如智能监控、自动驾驶、医疗诊断等。SVFCL能够有效缓解过拟合问题,提高模型在新类别上的泛化能力,从而提升系统的整体性能和可靠性。
📄 摘要(原文)
Class-Incremental Learning (CIL) aims to prevent catastrophic forgetting of previously learned classes while sequentially incorporating new ones. The more challenging Few-shot CIL (FSCIL) setting further complicates this by providing only a limited number of samples for each new class, increasing the risk of overfitting in addition to standard CIL challenges. While catastrophic forgetting has been extensively studied, overfitting in FSCIL, especially with large foundation models, has received less attention. To fill this gap, we propose the Singular Value Fine-tuning for FSCIL (SVFCL) and compared it with existing approaches for adapting foundation models to FSCIL, which primarily build on Parameter Efficient Fine-Tuning (PEFT) methods like prompt tuning and Low-Rank Adaptation (LoRA). Specifically, SVFCL applies singular value decomposition to the foundation model weights, keeping the singular vectors fixed while fine-tuning the singular values for each task, and then merging them. This simple yet effective approach not only alleviates the forgetting problem but also mitigates overfitting more effectively while significantly reducing trainable parameters. Extensive experiments on four benchmark datasets, along with visualizations and ablation studies, validate the effectiveness of SVFCL. The code will be made available.