Adapting Multimodal Foundation Models for Few-Shot Learning: A Comprehensive Study on Contrastive Captioners

作者: N. K. B. M. P. K. B. Narasinghe, Uthayasanker Thayasivam

分类: cs.CV, cs.AI

发布日期: 2025-12-14

备注: 9 pages, 3 figures. Accepted to VISAPP 2026

💡 一句话要点

研究对比式字幕模型CoCa在少样本学习中的适应性，并提出优化策略。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 少样本学习 多模态模型 对比式学习 CoCa 参数高效微调 LoRA 数据增强 监督对比学习

📋 核心要点

现有研究对生成式-对比式混合模型CoCa在少样本学习中的适应性探索不足，尤其缺乏对CoCa潜在空间如何响应参数高效微调的理解。
论文核心在于系统性地研究CoCa视觉骨干网络在少样本图像分类中的适应性，并评估一系列策略，包括混合原型和LoRA微调。
实验发现强数据增强对LoRA微调至关重要，并证明了结合SupCon损失的混合目标能够提升性能，同时提供了训练配置对数据稀缺的敏感性分析。

📝 摘要（中文）

大规模多模态基础模型，特别是对比式字幕模型(CoCa)，通过统一对比对齐和生成式字幕，取得了最先进的结果。虽然零样本迁移能力已被充分证明，但这些生成-对比混合模型在数据极度稀缺(少样本学习)情况下对下游任务的适应性仍未被充分探索。现有文献主要集中于像CLIP这样的双编码器架构，留下了对CoCa独特潜在空间如何响应参数高效微调(PEFT)的理解空白。本文对CoCa视觉骨干网络在少样本图像分类中的适应性进行了全面的实证研究。我们系统地评估了一系列策略，从无训练的混合原型到通过低秩适应(LoRA)进行深度参数适应。首先，我们发现了一个“增强发散”：虽然强数据增强会降低线性探测在低样本设置中的性能，但它对于稳定LoRA微调至关重要。我们还证明了，结合监督对比(SupCon)损失的混合目标在不同的样本数量下，比标准交叉熵产生一致的性能提升。至关重要的是，我们描述了训练配置对数据稀缺的敏感性，为缩放正则化、秩和采样策略提供了经验参考设置，以促进生成-对比基础模型的有效适应。

🔬 方法详解

问题定义：论文旨在解决多模态基础模型CoCa在少样本图像分类任务中的适应性问题。现有方法，特别是针对CLIP等双编码器架构的方法，无法直接应用于CoCa这种生成-对比混合模型。CoCa的独特潜在空间对参数高效微调的响应机制尚不明确，导致在数据稀缺情况下难以有效利用CoCa的强大表征能力。

核心思路：论文的核心思路是通过系统性的实验，探索不同的微调策略，并分析这些策略在不同数据量下的表现。通过对比不同的数据增强方法、损失函数和参数高效微调技术，找到最适合CoCa的少样本学习方案。特别关注数据增强对LoRA微调的影响，以及监督对比学习损失的有效性。

技术框架：论文采用的整体框架包括：1) 选择CoCa作为基础模型；2) 设计一系列微调策略，包括线性探测、混合原型和LoRA微调；3) 采用不同的数据增强方法，例如强数据增强和弱数据增强；4) 使用不同的损失函数，包括交叉熵损失和监督对比损失(SupCon)；5) 在多个少样本图像分类数据集上进行实验，评估不同策略的性能。

关键创新：论文的关键创新在于发现了“增强发散”现象，即强数据增强虽然会降低线性探测的性能，但对于稳定LoRA微调至关重要。此外，论文还证明了结合SupCon损失的混合目标能够显著提升少样本学习的性能。通过系统性的实验，论文为CoCa在少样本学习中的应用提供了经验参考设置，包括正则化、秩和采样策略。

关键设计：论文的关键设计包括：1) 使用LoRA进行参数高效微调，降低计算成本；2) 探索不同的数据增强策略，找到最适合CoCa的增强方法；3) 采用SupCon损失，利用标签信息进行对比学习，提升模型的判别能力；4) 系统性地调整正则化强度、LoRA的秩等超参数，以适应不同的数据量。

🖼️ 关键图片

📊 实验亮点

实验结果表明，强数据增强对于稳定LoRA微调至关重要，解决了“增强发散”问题。同时，结合SupCon损失的混合目标在不同样本数量下均优于标准交叉熵损失。论文还提供了关于正则化、秩和采样策略的经验参考设置，为CoCa在少样本学习中的高效应用提供了指导。

🎯 应用场景

该研究成果可应用于图像识别、目标检测、图像检索等领域，尤其是在数据标注成本高昂或数据难以获取的场景下，例如医学图像分析、遥感图像分析等。通过高效地利用少量标注数据，可以快速构建高性能的图像分类模型，降低开发成本，加速应用落地。该研究也为其他生成-对比混合模型在少样本学习中的应用提供了借鉴。

📄 摘要（原文）

Large-scale multimodal foundation models, particularly Contrastive Captioners (CoCa), have achieved state-of-the-art results by unifying contrastive alignment with generative captioning. While zero-shot transfer capabilities are well-documented, the adaptation of these generative-contrastive hybrids to downstream tasks with extreme data scarcity (few-shot learning) remains under-explored. Existing literature predominantly focuses on dual-encoder architectures like CLIP, leaving a gap in understanding how CoCa's distinct latent space responds to parameter-efficient fine-tuning (PEFT). This paper presents a comprehensive empirical study on adapting the CoCa visual backbone for few-shot image classification. We systematically evaluate a hierarchy of strategies, ranging from training-free hybrid prototyping to deep parameter adaptation via Low-Rank Adaptation (LoRA). First, we identify an "augmentation divergence": while strong data augmentation degrades the performance of linear probing in low-shot settings, it is essential for stabilizing LoRA fine-tuning. We also demonstrate that hybrid objectives incorporating Supervised Contrastive (SupCon) loss yield consistent performance improvements over standard Cross-Entropy across varying shot counts. Crucially, we characterize the sensitivity of training configurations to data scarcity, providing empirical reference settings for scaling regularization, rank, and sampling strategies to facilitate the efficient adaptation of generative-contrastive foundation models.

Adapting Multimodal Foundation Models for Few-Shot Learning: A Comprehensive Study on Contrastive Captioners

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理