Efficient and Versatile Robust Fine-Tuning of Zero-shot Models

作者: Sungyeon Kim, Boseung Jeong, Donghyun Kim, Suha Kwak

分类: cs.CV, cs.LG

发布日期: 2024-08-11

备注: Accepted to ECCV 2024

💡 一句话要点

提出R-Adapter，高效且泛化性强地微调零样本模型，提升OOD鲁棒性。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 零样本学习 鲁棒微调 Adapter 自集成 对比学习 视觉-语言模型 分布外泛化

📋 核心要点

现有零样本模型微调方法泛化性差，对分布外数据鲁棒性不足，且计算资源需求大。
R-Adapter通过引入轻量级模块和自集成技术，在微调的同时提升OOD鲁棒性并降低存储成本。
MPM-NCE损失函数确保图像-文本对的精确对齐和判别性特征学习，并在多种任务上取得SOTA性能。

📝 摘要（中文）

大规模图像-文本预训练模型能够实现零样本分类，并在各种数据分布上保持一致的准确性。然而，在下游任务中优化这些模型通常需要微调，这会降低模型对分布外(OOD)数据的泛化能力，并需要大量的计算资源。我们提出了一种名为Robust Adapter (R-Adapter)的新方法，用于微调零样本模型到下游任务，同时解决这两个问题。我们的方法将轻量级模块集成到预训练模型中，并采用新颖的自集成技术来显著提高OOD鲁棒性并降低存储成本。此外，我们提出了MPM-NCE损失，专为视觉-语言下游任务的微调而设计，确保多个图像-文本对的精确对齐和判别性特征学习。通过将鲁棒微调的基准扩展到分类之外，包括跨模态检索和开放词汇分割等多种任务，我们证明了R-Adapter的广泛适用性。大量的实验表明，R-Adapter在一系列不同的任务中实现了最先进的性能，仅调整CLIP编码器13%的参数。

🔬 方法详解

问题定义：现有的大规模图像-文本预训练模型在下游任务微调时，容易过拟合到训练数据，导致在分布外(OOD)数据上的泛化性能显著下降。同时，对整个模型进行微调需要大量的计算资源和存储空间，限制了其在资源受限场景下的应用。因此，如何高效且鲁棒地微调零样本模型，使其在下游任务上保持良好的泛化能力，是本文要解决的核心问题。

核心思路：R-Adapter的核心思路是在预训练模型中插入轻量级的Adapter模块，只对这些模块进行微调，从而减少需要训练的参数量，降低过拟合风险。同时，采用自集成技术，通过对模型进行多次采样和预测，并将结果进行融合，来提高模型的鲁棒性和泛化能力。此外，设计了专门针对视觉-语言任务的MPM-NCE损失函数，以更好地对齐图像和文本特征。

技术框架：R-Adapter的整体框架包括以下几个主要模块：1) 预训练的图像编码器和文本编码器（例如CLIP）；2) 插入到编码器中的Adapter模块；3) 自集成模块，用于生成多个预测结果；4) MPM-NCE损失函数，用于优化Adapter模块的参数。在训练过程中，首先将图像和文本输入到编码器中，然后通过Adapter模块进行特征提取和转换。接着，使用自集成模块生成多个预测结果，并使用MPM-NCE损失函数对Adapter模块进行优化。

关键创新：R-Adapter的关键创新点在于：1) 提出了轻量级的Adapter模块，可以高效地微调预训练模型，同时保持良好的泛化能力；2) 引入了自集成技术，通过对模型进行多次采样和预测，并将结果进行融合，来提高模型的鲁棒性和泛化能力；3) 设计了专门针对视觉-语言任务的MPM-NCE损失函数，可以更好地对齐图像和文本特征。与现有方法相比，R-Adapter能够在更少的计算资源下，实现更好的OOD鲁棒性和泛化性能。

关键设计：R-Adapter的关键设计包括：1) Adapter模块的结构：采用 bottleneck 结构，先将特征降维，再进行非线性变换，最后升维到原始维度，以减少参数量；2) 自集成模块的实现：通过对模型进行多次dropout或添加噪声等方式，生成多个不同的预测结果；3) MPM-NCE损失函数的具体形式：采用多正例对比学习的方式，将同一个图像-文本对视为正例，将其他图像-文本对视为负例，并使用NCE损失函数进行优化。

🖼️ 关键图片

📊 实验亮点

R-Adapter在多个视觉-语言任务上取得了SOTA性能。例如，在图像分类任务上，R-Adapter仅微调CLIP编码器13%的参数，就能够达到与全参数微调相当甚至更好的性能，并且在OOD数据集上的鲁棒性显著提升。在跨模态检索和开放词汇分割任务上，R-Adapter也取得了显著的性能提升，证明了其广泛的适用性。

🎯 应用场景

R-Adapter具有广泛的应用前景，可以应用于图像分类、跨模态检索、开放词汇分割等多种视觉-语言任务。其高效性和鲁棒性使其特别适用于资源受限的场景，例如移动设备或嵌入式系统。此外，R-Adapter还可以用于构建更加可靠和安全的AI系统，提高模型在真实世界复杂环境中的适应能力。

📄 摘要（原文）

Large-scale image-text pre-trained models enable zero-shot classification and provide consistent accuracy across various data distributions. Nonetheless, optimizing these models in downstream tasks typically requires fine-tuning, which reduces generalization to out-of-distribution (OOD) data and demands extensive computational resources. We introduce Robust Adapter (R-Adapter), a novel method for fine-tuning zero-shot models to downstream tasks while simultaneously addressing both these issues. Our method integrates lightweight modules into the pre-trained model and employs novel self-ensemble techniques to boost OOD robustness and reduce storage expenses substantially. Furthermore, we propose MPM-NCE loss designed for fine-tuning on vision-language downstream tasks. It ensures precise alignment of multiple image-text pairs and discriminative feature learning. By extending the benchmark for robust fine-tuning beyond classification to include diverse tasks such as cross-modal retrieval and open vocabulary segmentation, we demonstrate the broad applicability of R-Adapter. Our extensive experiments demonstrate that R-Adapter achieves state-of-the-art performance across a diverse set of tasks, tuning only 13% of the parameters of the CLIP encoders.

Efficient and Versatile Robust Fine-Tuning of Zero-shot Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理