Efficient and Versatile Robust Fine-Tuning of Zero-shot Models

📄 arXiv: 2408.05749v1 📥 PDF

作者: Sungyeon Kim, Boseung Jeong, Donghyun Kim, Suha Kwak

分类: cs.CV, cs.LG

发布日期: 2024-08-11

备注: Accepted to ECCV 2024


💡 一句话要点

提出R-Adapter,高效且泛化性强地微调零样本模型,提升OOD鲁棒性。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 零样本学习 鲁棒微调 Adapter 自集成 对比学习 视觉-语言模型 分布外泛化

📋 核心要点

  1. 现有零样本模型微调方法泛化性差,对分布外数据鲁棒性不足,且计算资源需求大。
  2. R-Adapter通过引入轻量级模块和自集成技术,在微调的同时提升OOD鲁棒性并降低存储成本。
  3. MPM-NCE损失函数确保图像-文本对的精确对齐和判别性特征学习,并在多种任务上取得SOTA性能。

📝 摘要(中文)

大规模图像-文本预训练模型能够实现零样本分类,并在各种数据分布上保持一致的准确性。然而,在下游任务中优化这些模型通常需要微调,这会降低模型对分布外(OOD)数据的泛化能力,并需要大量的计算资源。我们提出了一种名为Robust Adapter (R-Adapter)的新方法,用于微调零样本模型到下游任务,同时解决这两个问题。我们的方法将轻量级模块集成到预训练模型中,并采用新颖的自集成技术来显著提高OOD鲁棒性并降低存储成本。此外,我们提出了MPM-NCE损失,专为视觉-语言下游任务的微调而设计,确保多个图像-文本对的精确对齐和判别性特征学习。通过将鲁棒微调的基准扩展到分类之外,包括跨模态检索和开放词汇分割等多种任务,我们证明了R-Adapter的广泛适用性。大量的实验表明,R-Adapter在一系列不同的任务中实现了最先进的性能,仅调整CLIP编码器13%的参数。

🔬 方法详解

问题定义:现有的大规模图像-文本预训练模型在下游任务微调时,容易过拟合到训练数据,导致在分布外(OOD)数据上的泛化性能显著下降。同时,对整个模型进行微调需要大量的计算资源和存储空间,限制了其在资源受限场景下的应用。因此,如何高效且鲁棒地微调零样本模型,使其在下游任务上保持良好的泛化能力,是本文要解决的核心问题。

核心思路:R-Adapter的核心思路是在预训练模型中插入轻量级的Adapter模块,只对这些模块进行微调,从而减少需要训练的参数量,降低过拟合风险。同时,采用自集成技术,通过对模型进行多次采样和预测,并将结果进行融合,来提高模型的鲁棒性和泛化能力。此外,设计了专门针对视觉-语言任务的MPM-NCE损失函数,以更好地对齐图像和文本特征。

技术框架:R-Adapter的整体框架包括以下几个主要模块:1) 预训练的图像编码器和文本编码器(例如CLIP);2) 插入到编码器中的Adapter模块;3) 自集成模块,用于生成多个预测结果;4) MPM-NCE损失函数,用于优化Adapter模块的参数。在训练过程中,首先将图像和文本输入到编码器中,然后通过Adapter模块进行特征提取和转换。接着,使用自集成模块生成多个预测结果,并使用MPM-NCE损失函数对Adapter模块进行优化。

关键创新:R-Adapter的关键创新点在于:1) 提出了轻量级的Adapter模块,可以高效地微调预训练模型,同时保持良好的泛化能力;2) 引入了自集成技术,通过对模型进行多次采样和预测,并将结果进行融合,来提高模型的鲁棒性和泛化能力;3) 设计了专门针对视觉-语言任务的MPM-NCE损失函数,可以更好地对齐图像和文本特征。与现有方法相比,R-Adapter能够在更少的计算资源下,实现更好的OOD鲁棒性和泛化性能。

关键设计:R-Adapter的关键设计包括:1) Adapter模块的结构:采用 bottleneck 结构,先将特征降维,再进行非线性变换,最后升维到原始维度,以减少参数量;2) 自集成模块的实现:通过对模型进行多次dropout或添加噪声等方式,生成多个不同的预测结果;3) MPM-NCE损失函数的具体形式:采用多正例对比学习的方式,将同一个图像-文本对视为正例,将其他图像-文本对视为负例,并使用NCE损失函数进行优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

R-Adapter在多个视觉-语言任务上取得了SOTA性能。例如,在图像分类任务上,R-Adapter仅微调CLIP编码器13%的参数,就能够达到与全参数微调相当甚至更好的性能,并且在OOD数据集上的鲁棒性显著提升。在跨模态检索和开放词汇分割任务上,R-Adapter也取得了显著的性能提升,证明了其广泛的适用性。

🎯 应用场景

R-Adapter具有广泛的应用前景,可以应用于图像分类、跨模态检索、开放词汇分割等多种视觉-语言任务。其高效性和鲁棒性使其特别适用于资源受限的场景,例如移动设备或嵌入式系统。此外,R-Adapter还可以用于构建更加可靠和安全的AI系统,提高模型在真实世界复杂环境中的适应能力。

📄 摘要(原文)

Large-scale image-text pre-trained models enable zero-shot classification and provide consistent accuracy across various data distributions. Nonetheless, optimizing these models in downstream tasks typically requires fine-tuning, which reduces generalization to out-of-distribution (OOD) data and demands extensive computational resources. We introduce Robust Adapter (R-Adapter), a novel method for fine-tuning zero-shot models to downstream tasks while simultaneously addressing both these issues. Our method integrates lightweight modules into the pre-trained model and employs novel self-ensemble techniques to boost OOD robustness and reduce storage expenses substantially. Furthermore, we propose MPM-NCE loss designed for fine-tuning on vision-language downstream tasks. It ensures precise alignment of multiple image-text pairs and discriminative feature learning. By extending the benchmark for robust fine-tuning beyond classification to include diverse tasks such as cross-modal retrieval and open vocabulary segmentation, we demonstrate the broad applicability of R-Adapter. Our extensive experiments demonstrate that R-Adapter achieves state-of-the-art performance across a diverse set of tasks, tuning only 13% of the parameters of the CLIP encoders.