Proxy-FDA: Proxy-based Feature Distribution Alignment for Fine-tuning Vision Foundation Models without Forgetting

作者: Chen Huang, Skyler Seto, Hadi Pouransari, Mehrdad Farajtabar, Raviteja Vemulapalli, Fartash Faghri, Oncel Tuzel, Barry-John Theobald, Josh Susskind

分类: cs.LG, cs.CV

发布日期: 2025-05-30

备注: ICML 2025

💡 一句话要点

提出Proxy-FDA，通过代理特征分布对齐解决视觉基础模型微调中的概念遗忘问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉基础模型 微调 概念遗忘 特征分布对齐 最近邻图 知识保留 代理学习

📋 核心要点

微调视觉基础模型时，容易发生概念遗忘，即模型忘记了预训练阶段学到的知识，影响其在其他任务上的表现。
Proxy-FDA通过特征分布对齐来保留结构知识，利用最近邻图对齐预训练和微调模型的特征空间，并引入动态代理增加数据多样性。
实验表明，Proxy-FDA显著减少了微调过程中的概念遗忘，并在图像分类、字幕和VQA等任务上取得了优异的性能。

📝 摘要（中文）

视觉基础模型在海量数据上预训练，编码了丰富的真实世界概念表示，可以通过微调适应下游任务。然而，在一个任务上微调基础模型常常导致在其他任务上的概念遗忘问题。最近的鲁棒微调方法旨在缓解对先前知识的遗忘，而不影响微调性能。知识通常通过匹配原始模型和微调模型的权重或特征对来保存。然而，这种点对点匹配可能过于严格，没有明确意识到编码丰富知识的特征邻域结构。我们提出了一种新的正则化方法Proxy-FDA，它显式地保留了特征空间中的结构知识。Proxy-FDA在预训练和微调的特征空间之间执行特征分布对齐（使用最近邻图），并通过动态生成的、信息丰富的代理来进一步改进对齐，以增加数据多样性。实验表明，Proxy-FDA显著减少了微调期间的概念遗忘，并且我们发现遗忘与分布距离度量（与L2距离相比）之间存在很强的相关性。我们进一步证明了Proxy-FDA在各种微调设置（端到端、少样本和持续微调）以及跨不同任务（如图像分类、字幕和VQA）中的优势。

🔬 方法详解

问题定义：视觉基础模型在微调过程中容易遗忘预训练阶段学习到的知识，导致模型在其他任务上的性能下降。现有的知识保留方法通常采用点对点的权重或特征匹配，忽略了特征空间中的结构信息，限制了知识保留的效果。

核心思路：Proxy-FDA的核心思想是通过对齐预训练模型和微调模型的特征分布，显式地保留特征空间中的结构知识。该方法利用最近邻图来捕捉特征之间的关系，并通过动态生成的代理来增加数据多样性，从而更有效地对齐特征分布。

技术框架：Proxy-FDA主要包含以下几个阶段：1) 特征提取：分别从预训练模型和微调模型中提取特征。2) 最近邻图构建：基于提取的特征，构建预训练模型和微调模型的最近邻图，用于捕捉特征之间的关系。3) 代理生成：动态生成信息丰富的代理，用于增加数据多样性，提升特征分布对齐的效果。4) 特征分布对齐：利用最近邻图和代理，对齐预训练模型和微调模型的特征分布。5) 模型微调：在下游任务上微调模型，同时使用特征分布对齐作为正则化项，防止概念遗忘。

关键创新：Proxy-FDA的关键创新在于：1) 显式地保留特征空间中的结构知识，通过特征分布对齐来缓解概念遗忘。2) 引入动态生成的代理，增加数据多样性，提升特征分布对齐的效果。3) 利用最近邻图来捕捉特征之间的关系，更准确地对齐特征分布。与现有方法相比，Proxy-FDA更加关注特征空间中的结构信息，能够更有效地保留预训练阶段学习到的知识。

关键设计：Proxy-FDA的关键设计包括：1) 最近邻图的构建方式：选择合适的距离度量和邻居数量，以准确捕捉特征之间的关系。2) 代理的生成策略：设计有效的代理生成算法，保证代理的信息丰富性和多样性。3) 特征分布对齐的损失函数：设计合适的损失函数，用于衡量预训练模型和微调模型的特征分布之间的差异，并指导模型进行特征分布对齐。例如，可以使用KL散度或Wasserstein距离来衡量特征分布之间的差异。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Proxy-FDA在各种微调设置（端到端、少样本和持续微调）以及跨不同任务（如图像分类、字幕和VQA）中均取得了显著的性能提升。例如，在图像分类任务中，Proxy-FDA相比于基线方法，概念遗忘程度降低了显著比例，同时保持了在目标任务上的竞争力。作者还发现，遗忘程度与分布距离度量（如Wasserstein距离）之间存在很强的相关性，验证了Proxy-FDA的有效性。

🎯 应用场景

Proxy-FDA可应用于各种视觉基础模型的微调场景，例如图像分类、目标检测、语义分割、图像描述和视觉问答等。该方法能够有效缓解微调过程中的概念遗忘问题，提升模型在多个任务上的泛化能力，具有重要的实际应用价值和广阔的应用前景。尤其是在资源受限的边缘设备上，可以有效利用预训练模型知识，提升模型性能。

📄 摘要（原文）

Vision foundation models pre-trained on massive data encode rich representations of real-world concepts, which can be adapted to downstream tasks by fine-tuning. However, fine-tuning foundation models on one task often leads to the issue of concept forgetting on other tasks. Recent methods of robust fine-tuning aim to mitigate forgetting of prior knowledge without affecting the fine-tuning performance. Knowledge is often preserved by matching the original and fine-tuned model weights or feature pairs. However, such point-wise matching can be too strong, without explicit awareness of the feature neighborhood structures that encode rich knowledge as well. We propose a novel regularization method Proxy-FDA that explicitly preserves the structural knowledge in feature space. Proxy-FDA performs Feature Distribution Alignment (using nearest neighbor graphs) between the pre-trained and fine-tuned feature spaces, and the alignment is further improved by informative proxies that are generated dynamically to increase data diversity. Experiments show that Proxy-FDA significantly reduces concept forgetting during fine-tuning, and we find a strong correlation between forgetting and a distributional distance metric (in comparison to L2 distance). We further demonstrate Proxy-FDA's benefits in various fine-tuning settings (end-to-end, few-shot and continual tuning) and across different tasks like image classification, captioning and VQA.

Proxy-FDA: Proxy-based Feature Distribution Alignment for Fine-tuning Vision Foundation Models without Forgetting

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理