CLIP meets DINO for Tuning Zero-Shot Classifier using Unlabeled Image Collections

作者: Mohamed Fazli Imam, Rufael Fedaku Marew, Jameel Hassan, Mustansar Fiaz, Alham Fikri Aji, Hisham Cholakkal

分类: cs.CV, cs.CL, cs.LG

发布日期: 2024-11-28 (更新: 2025-04-10)

🔗 代码/项目: GITHUB

💡 一句话要点

提出NoLA，利用无标签图像集合微调CLIP零样本分类器，融合DINO的视觉特征。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 零样本学习 CLIP DINO 自监督学习 提示调优 无标签学习 图像分类 大型语言模型

📋 核心要点

CLIP在细粒度任务中视觉特征表现不足，而DINO等SSL模型需要大量标注数据，限制了其应用。
利用LLM生成类特定描述，结合DINO的视觉特征，通过伪标签训练对齐模块，提升CLIP性能。
NoLA框架在11个图像分类数据集上超越了LaFTer，平均绝对增益为3.6%，展示了其有效性。

📝 摘要（中文）

在大模型时代，CLIP已成为将文本和视觉模态对齐到共同嵌入空间的强大工具。然而，用于训练CLIP的对齐目标通常导致细粒度任务的视觉特征表现不佳。相比之下，像DINO这样的自监督学习（SSL）预训练模型，由于其专门的训练范式，擅长提取丰富的视觉特征。但是，这些SSL模型需要额外的监督线性探测步骤，这依赖于完全标记的数据，而大规模获取这些数据通常成本高昂且困难。本文提出了一种无标签提示调优方法，该方法利用自监督学习模型（DINO）的丰富视觉特征和大型语言模型（LLM）的广泛文本知识，使用无标签图像来大幅提升基于CLIP的图像分类性能。我们的方法分为三个关键步骤：（1）通过利用来自LLM的类特定描述，生成更准确地表示对象类别的鲁棒文本特征嵌入，从而实现比CLIP默认的名称特定提示更有效的零样本分类。（2）然后，这些文本嵌入用于生成伪标签，以训练一个对齐模块，该模块集成了基于LLM描述的文本嵌入和DINO视觉特征的互补优势。（3）最后，我们通过DINO辅助监督，使用训练好的对齐模块来提示调优CLIP的视觉编码器。这个三步过程使我们能够利用视觉和文本基础模型的最佳特性，从而产生一种强大而有效的方法，超越了最先进的无标签分类方法。值得注意的是，我们的框架NoLA（No Labels Attached）在11个不同的图像分类数据集上，比最先进的LaFTer平均绝对增益为3.6%。

🔬 方法详解

问题定义：论文旨在解决CLIP在零样本图像分类任务中，由于其训练目标导致的视觉特征表示能力不足的问题。现有方法要么依赖于大量标注数据进行微调，要么无法充分利用自监督学习模型所提取的丰富视觉特征。因此，如何在无标签数据的情况下，提升CLIP的零样本分类性能是一个关键挑战。

核心思路：论文的核心思路是结合大型语言模型（LLM）的文本知识和自监督学习模型（DINO）的视觉特征，通过无标签数据进行知识迁移和对齐。具体来说，利用LLM生成更具描述性的文本嵌入，作为DINO视觉特征的监督信号，从而提升CLIP的视觉编码器的性能。

技术框架：NoLA框架包含三个主要阶段：1) 文本特征增强：利用LLM生成类别的详细描述，并将这些描述转换为文本嵌入，以增强CLIP的文本特征表示。2) 伪标签生成与对齐模块训练：使用增强的文本嵌入和DINO提取的视觉特征，生成伪标签，并训练一个对齐模块，该模块学习将DINO的视觉特征与LLM的文本描述对齐。3) CLIP视觉编码器微调：使用训练好的对齐模块，通过DINO辅助监督的方式，对CLIP的视觉编码器进行提示调优。

关键创新：论文的关键创新在于提出了一种无标签的提示调优方法，该方法能够有效地利用LLM的文本知识和DINO的视觉特征，提升CLIP的零样本分类性能。与现有方法相比，NoLA不需要任何标注数据，并且能够充分利用自监督学习模型的优势。

关键设计：在文本特征增强阶段，使用了LLM生成类别的详细描述，并使用CLIP的文本编码器将这些描述转换为文本嵌入。在伪标签生成阶段，使用了余弦相似度来衡量DINO视觉特征和增强的文本嵌入之间的相似性，并根据相似度生成伪标签。在CLIP视觉编码器微调阶段，使用了交叉熵损失函数来优化CLIP的视觉编码器，目标是使视觉特征与增强的文本嵌入对齐。

🖼️ 关键图片

📊 实验亮点

NoLA框架在11个不同的图像分类数据集上进行了评估，实验结果表明，NoLA显著优于现有的无标签分类方法，例如LaFTer。NoLA在这些数据集上实现了平均3.6%的绝对性能提升，证明了其有效性。

🎯 应用场景

该研究成果可广泛应用于图像分类、目标检测等计算机视觉任务中，尤其是在缺乏标注数据的场景下。例如，在医学图像分析、遥感图像解译等领域，标注数据获取困难，该方法可以有效提升模型性能，具有重要的实际应用价值和潜力。

📄 摘要（原文）

In the era of foundation models, CLIP has emerged as a powerful tool for aligning text & visual modalities into a common embedding space. However, the alignment objective used to train CLIP often results in subpar visual features for fine-grained tasks. In contrast, SSL-pretrained models like DINO excel at extracting rich visual features due to their specialized training paradigm. Yet, these SSL models require an additional supervised linear probing step, which relies on fully labeled data which is often expensive and difficult to obtain at scale. In this paper, we propose a label-free prompt-tuning method that leverages the rich visual features of self-supervised learning models (DINO) and the broad textual knowledge of large language models (LLMs) to largely enhance CLIP-based image classification performance using unlabeled images. Our approach unfolds in three key steps: (1) We generate robust textual feature embeddings that more accurately represent object classes by leveraging class-specific descriptions from LLMs, enabling more effective zero-shot classification compared to CLIP's default name-specific prompts. (2) These textual embeddings are then used to produce pseudo-labels to train an alignment module that integrates the complementary strengths of LLM description-based textual embeddings & DINO's visual features. (3) Finally, we prompt-tune CLIP's vision encoder through DINO-assisted supervision using the trained alignment module. This three-step process allows us to harness the best of visual & textual foundation models, resulting in a powerful and efficient approach that surpasses state-of-the-art label-free classification methods. Notably, our framework, NoLA (No Labels Attached), achieves an average absolute gain of 3.6% over the state-of-the-art LaFTer across 11 diverse image classification datasets. Our code & models can be found at https://github.com/fazliimam/NoLA.

CLIP meets DINO for Tuning Zero-Shot Classifier using Unlabeled Image Collections

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理