Consistency-Guided Asynchronous Contrastive Tuning for Few-Shot Class-Incremental Tuning of Foundation Models

📄 arXiv: 2405.16625v2 📥 PDF

作者: Shuvendu Roy, Elham Dolatabadi, Arash Afkanpour, Ali Etemad

分类: cs.CV

发布日期: 2024-05-26 (更新: 2025-04-01)

备注: Accepted in Transactions on Machine Learning Research (TMLR)

🔗 代码/项目: GITHUB


💡 一句话要点

提出CoACT,用于小样本类增量式微调预训练模型,提升新类学习能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 少样本学习 类增量学习 持续学习 预训练模型 对比学习 灾难性遗忘 微调

📋 核心要点

  1. 现有FSCIL方法通常依赖于大规模同分布数据集的预训练,限制了其在数据稀缺场景下的应用。
  2. CoACT通过异步对比调优、受控微调和一致性引导的增量调优,有效提升了模型在少样本类增量学习中的性能。
  3. 实验结果表明,CoACT在FSCIL和FSCIT任务上均优于现有方法,尤其在低样本情况下表现出更强的鲁棒性。

📝 摘要(中文)

本文提出了一种名为一致性引导的异步对比调优(CoACT)的新方法,用于持续调优预训练模型,以在少样本设置下学习新类别。CoACT包含三个关键组成部分:(i)异步对比调优,通过在预训练编码器中包含LoRA模块来学习新类别,同时强制执行两个异步编码器之间的一致性;(ii)受控微调,有助于有效调整预训练模型的一个子集;(iii)一致性引导的增量调优,在后续会话中强制执行额外的正则化,以减少对已学习类别的遗忘。我们在少样本类增量学习(FSCIL)以及一种新的更具挑战性的设置(称为少样本类增量调优(FSCIT))上评估了我们提出的解决方案,该设置有助于持续调整视觉预训练模型,以仅用每个类别的几个样本来学习新类别。与传统的FSCIL不同,FSCIT不需要大型的同分布基础会话来进行初始的完全监督训练,然后再进行增量少样本会话。我们跨越16个不同的数据集进行了广泛的评估,证明了CoACT在FSCIL和FSCIT设置中的有效性。CoACT在FSCIL中优于现有方法高达5.02%,在FSCIT中优于现有方法高达12.51%,平均提升2.47%。此外,CoACT在低样本实验中表现出减少的遗忘和增强的鲁棒性。详细的消融和敏感性研究突出了CoACT每个组成部分的贡献。我们的代码已在https://github.com/ShuvenduRoy/CoACT-FSCIL上公开。

🔬 方法详解

问题定义:论文旨在解决少样本类增量学习(FSCIL)和少样本类增量调优(FSCIT)问题。现有FSCIL方法通常需要大规模的同分布数据集进行预训练,这在实际应用中可能难以满足。此外,增量学习过程中容易出现灾难性遗忘问题,即模型在学习新类别的同时忘记了之前学习的类别。

核心思路:CoACT的核心思路是通过异步对比调优来学习新类别,并利用一致性引导的增量调优来减少灾难性遗忘。异步对比调优允许模型在学习新类别的同时,保持与预训练模型的一致性。一致性引导的增量调优则通过正则化来约束模型的学习过程,防止模型过度拟合新类别而忘记旧类别。

技术框架:CoACT包含三个主要组成部分:异步对比调优、受控微调和一致性引导的增量调优。异步对比调优使用两个异步编码器,一个用于学习新类别,另一个保持预训练状态,并通过对比学习来保持两者的一致性。受控微调选择性地调整预训练模型的一部分参数,以提高学习效率。一致性引导的增量调优在后续的增量学习会话中添加额外的正则化项,以减少遗忘。

关键创新:CoACT的关键创新在于其异步对比调优机制和一致性引导的增量调优策略。异步对比调优允许模型在学习新类别的同时,保持与预训练模型的一致性,从而提高了模型的泛化能力。一致性引导的增量调优则通过正则化来约束模型的学习过程,防止模型过度拟合新类别而忘记旧类别,从而减少了灾难性遗忘。

关键设计:CoACT使用LoRA模块来调整预训练编码器,LoRA模块是一种轻量级的参数化方法,可以有效地调整预训练模型。损失函数包括对比损失和一致性损失,对比损失用于学习新类别,一致性损失用于保持与预训练模型的一致性。正则化项用于约束模型的学习过程,防止模型过度拟合新类别而忘记旧类别。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CoACT在16个不同的数据集上进行了广泛的评估,结果表明,CoACT在FSCIL中优于现有方法高达5.02%,在FSCIT中优于现有方法高达12.51%,平均提升2.47%。此外,CoACT在低样本实验中表现出减少的遗忘和增强的鲁棒性。消融实验表明,CoACT的每个组成部分都对最终性能有贡献。

🎯 应用场景

CoACT方法可应用于各种需要持续学习新类别的视觉任务,例如智能监控、自动驾驶、医疗图像分析等。该方法能够利用少量样本快速适应新环境,降低了模型训练成本,提高了模型的实用性。未来,该方法有望扩展到其他模态数据,例如文本和语音,实现多模态的持续学习。

📄 摘要(原文)

We propose Consistency-guided Asynchronous Contrastive Tuning (CoACT), a novel method for continuously tuning foundation models to learn new classes in few-shot settings. CoACT consists of three key components:(i) asynchronous contrastive tuning, which learns new classes by including LoRA modules in the pre-trained encoder while enforcing consistency between two asynchronous encoders; (ii) controlled fine-tuning, which facilitates effective tuning of a subset of the foundation model; and (iii) consistency-guided incremental tuning, which enforces additional regularization during later sessions to reduce forgetting of the learned classes. We evaluate our proposed solution on Few-Shot Class-Incremental Learning (FSCIL) as well as a new and more challenging setup called Few-Shot Class-Incremental Tuning (FSCIT), which facilitates the continual tuning of vision foundation models to learn new classes with only a few samples per class. Unlike traditional FSCIL, FSCIT does not require a large in-distribution base session for initial fully supervised training prior to the incremental few-shot sessions. We conduct extensive evaluations across 16 diverse datasets, demonstrating the effectiveness of CoACT in both FSCIL and FSCIT setups. CoACT outperforms existing methods by up to 5.02% in FSCIL and up to 12.51% in FSCIT for individual datasets, with an average improvement of 2.47%. Furthermore, CoACT exhibits reduced forgetting and enhanced robustness in low-shot experiments. Detailed ablation and sensitivity studies highlight the contribution of each component of CoACT. We make our code publicly available at https://github.com/ShuvenduRoy/CoACT-FSCIL.