Proxy-FDA: Proxy-based Feature Distribution Alignment for Fine-tuning Vision Foundation Models without Forgetting

📄 arXiv: 2505.24088v1 📥 PDF

作者: Chen Huang, Skyler Seto, Hadi Pouransari, Mehrdad Farajtabar, Raviteja Vemulapalli, Fartash Faghri, Oncel Tuzel, Barry-John Theobald, Josh Susskind

分类: cs.LG, cs.CV

发布日期: 2025-05-30

备注: ICML 2025


💡 一句话要点

提出Proxy-FDA,通过代理特征分布对齐解决视觉基础模型微调中的概念遗忘问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉基础模型 微调 概念遗忘 特征分布对齐 最近邻图 知识保留 代理学习

📋 核心要点

  1. 微调视觉基础模型时,容易发生概念遗忘,即模型忘记了预训练阶段学到的知识,影响其在其他任务上的表现。
  2. Proxy-FDA通过特征分布对齐来保留结构知识,利用最近邻图对齐预训练和微调模型的特征空间,并引入动态代理增加数据多样性。
  3. 实验表明,Proxy-FDA显著减少了微调过程中的概念遗忘,并在图像分类、字幕和VQA等任务上取得了优异的性能。

📝 摘要(中文)

视觉基础模型在海量数据上预训练,编码了丰富的真实世界概念表示,可以通过微调适应下游任务。然而,在一个任务上微调基础模型常常导致在其他任务上的概念遗忘问题。最近的鲁棒微调方法旨在缓解对先前知识的遗忘,而不影响微调性能。知识通常通过匹配原始模型和微调模型的权重或特征对来保存。然而,这种点对点匹配可能过于严格,没有明确意识到编码丰富知识的特征邻域结构。我们提出了一种新的正则化方法Proxy-FDA,它显式地保留了特征空间中的结构知识。Proxy-FDA在预训练和微调的特征空间之间执行特征分布对齐(使用最近邻图),并通过动态生成的、信息丰富的代理来进一步改进对齐,以增加数据多样性。实验表明,Proxy-FDA显著减少了微调期间的概念遗忘,并且我们发现遗忘与分布距离度量(与L2距离相比)之间存在很强的相关性。我们进一步证明了Proxy-FDA在各种微调设置(端到端、少样本和持续微调)以及跨不同任务(如图像分类、字幕和VQA)中的优势。

🔬 方法详解

问题定义:视觉基础模型在微调过程中容易遗忘预训练阶段学习到的知识,导致模型在其他任务上的性能下降。现有的知识保留方法通常采用点对点的权重或特征匹配,忽略了特征空间中的结构信息,限制了知识保留的效果。

核心思路:Proxy-FDA的核心思想是通过对齐预训练模型和微调模型的特征分布,显式地保留特征空间中的结构知识。该方法利用最近邻图来捕捉特征之间的关系,并通过动态生成的代理来增加数据多样性,从而更有效地对齐特征分布。

技术框架:Proxy-FDA主要包含以下几个阶段:1) 特征提取:分别从预训练模型和微调模型中提取特征。2) 最近邻图构建:基于提取的特征,构建预训练模型和微调模型的最近邻图,用于捕捉特征之间的关系。3) 代理生成:动态生成信息丰富的代理,用于增加数据多样性,提升特征分布对齐的效果。4) 特征分布对齐:利用最近邻图和代理,对齐预训练模型和微调模型的特征分布。5) 模型微调:在下游任务上微调模型,同时使用特征分布对齐作为正则化项,防止概念遗忘。

关键创新:Proxy-FDA的关键创新在于:1) 显式地保留特征空间中的结构知识,通过特征分布对齐来缓解概念遗忘。2) 引入动态生成的代理,增加数据多样性,提升特征分布对齐的效果。3) 利用最近邻图来捕捉特征之间的关系,更准确地对齐特征分布。与现有方法相比,Proxy-FDA更加关注特征空间中的结构信息,能够更有效地保留预训练阶段学习到的知识。

关键设计:Proxy-FDA的关键设计包括:1) 最近邻图的构建方式:选择合适的距离度量和邻居数量,以准确捕捉特征之间的关系。2) 代理的生成策略:设计有效的代理生成算法,保证代理的信息丰富性和多样性。3) 特征分布对齐的损失函数:设计合适的损失函数,用于衡量预训练模型和微调模型的特征分布之间的差异,并指导模型进行特征分布对齐。例如,可以使用KL散度或Wasserstein距离来衡量特征分布之间的差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Proxy-FDA在各种微调设置(端到端、少样本和持续微调)以及跨不同任务(如图像分类、字幕和VQA)中均取得了显著的性能提升。例如,在图像分类任务中,Proxy-FDA相比于基线方法,概念遗忘程度降低了显著比例,同时保持了在目标任务上的竞争力。作者还发现,遗忘程度与分布距离度量(如Wasserstein距离)之间存在很强的相关性,验证了Proxy-FDA的有效性。

🎯 应用场景

Proxy-FDA可应用于各种视觉基础模型的微调场景,例如图像分类、目标检测、语义分割、图像描述和视觉问答等。该方法能够有效缓解微调过程中的概念遗忘问题,提升模型在多个任务上的泛化能力,具有重要的实际应用价值和广阔的应用前景。尤其是在资源受限的边缘设备上,可以有效利用预训练模型知识,提升模型性能。

📄 摘要(原文)

Vision foundation models pre-trained on massive data encode rich representations of real-world concepts, which can be adapted to downstream tasks by fine-tuning. However, fine-tuning foundation models on one task often leads to the issue of concept forgetting on other tasks. Recent methods of robust fine-tuning aim to mitigate forgetting of prior knowledge without affecting the fine-tuning performance. Knowledge is often preserved by matching the original and fine-tuned model weights or feature pairs. However, such point-wise matching can be too strong, without explicit awareness of the feature neighborhood structures that encode rich knowledge as well. We propose a novel regularization method Proxy-FDA that explicitly preserves the structural knowledge in feature space. Proxy-FDA performs Feature Distribution Alignment (using nearest neighbor graphs) between the pre-trained and fine-tuned feature spaces, and the alignment is further improved by informative proxies that are generated dynamically to increase data diversity. Experiments show that Proxy-FDA significantly reduces concept forgetting during fine-tuning, and we find a strong correlation between forgetting and a distributional distance metric (in comparison to L2 distance). We further demonstrate Proxy-FDA's benefits in various fine-tuning settings (end-to-end, few-shot and continual tuning) and across different tasks like image classification, captioning and VQA.