Multi-label Cluster Discrimination for Visual Representation Learning

📄 arXiv: 2407.17331v2 📥 PDF

作者: Xiang An, Kaicheng Yang, Xiangzi Dai, Ziyong Feng, Jiankang Deng

分类: cs.CV

发布日期: 2024-07-24 (更新: 2024-11-06)

备注: Accepted by ECCV2024

DOI: 10.1007/978-3-031-73383-3_25

🔗 代码/项目: GITHUB


💡 一句话要点

提出多标签聚类判别(MLCD)方法,提升视觉表征学习效果

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 视觉表征学习 多标签学习 聚类判别 对比学习 图像分类

📋 核心要点

  1. CLIP的实例判别方法难以捕捉训练数据的语义结构,限制了其表征能力。
  2. 提出MLCD方法,通过多标签聚类判别,为每个图像分配多个伪标签,从而更好地编码图像的语义信息。
  3. 实验表明,MLCD在多个下游任务上取得了SOTA性能,验证了其有效性。

📝 摘要(中文)

对比语言图像预训练(CLIP)由于其卓越的特征表示能力,在各种任务中取得了成功,这得益于图像-文本对比学习。然而,CLIP使用的实例判别方法难以编码训练数据的语义结构。为了解决这个限制,聚类判别被提出,通过迭代的聚类分配和分类实现。然而,大多数聚类判别方法只为每个图像定义一个伪标签,忽略了图像中的多标签信号。在本文中,我们提出了一种新的多标签聚类判别方法,名为MLCD,以增强表征学习。在聚类步骤中,我们首先基于现成的嵌入特征将大规模LAION-400M数据集聚类成一百万个中心。考虑到自然图像通常包含多个视觉对象或属性,我们选择多个最接近的中心作为辅助类标签。在判别步骤中,我们设计了一种新的多标签分类损失,它优雅地分离了来自正类和负类的损失,并减轻了决策边界上的模糊性。我们在不同规模的模型和预训练数据集上验证了所提出的多标签聚类判别方法。实验结果表明,我们的方法在多个下游任务上实现了最先进的性能,包括线性探针、零样本分类和图像-文本检索。

🔬 方法详解

问题定义:CLIP等方法采用的实例判别方法忽略了图像中可能存在的多个语义信息,即图像可能包含多个对象或属性。现有聚类判别方法通常只为每个图像分配一个伪标签,无法充分利用图像中的多标签信号,导致表征学习效果受限。

核心思路:核心思路是利用大规模数据集(如LAION-400M)的聚类结果,为每个图像选择多个最接近的聚类中心作为伪标签。这样可以更全面地捕捉图像中包含的多个视觉对象或属性,从而更有效地进行表征学习。

技术框架:MLCD方法主要包含两个阶段:聚类阶段和判别阶段。在聚类阶段,首先使用现成的嵌入特征对大规模数据集进行聚类,得到多个聚类中心。然后,对于每个图像,选择多个与其嵌入特征最接近的聚类中心作为该图像的伪标签。在判别阶段,使用多标签分类损失函数训练模型,目标是使模型能够正确预测图像的多个伪标签。

关键创新:关键创新在于引入了多标签聚类判别的思想,为每个图像分配多个伪标签,从而更好地利用图像中的多标签信号。此外,设计了一种新的多标签分类损失函数,能够有效地分离正类和负类的损失,并减轻决策边界上的模糊性。

关键设计:在聚类阶段,使用k-means算法将LAION-400M数据集聚类成一百万个中心。在判别阶段,设计了一种新的多标签分类损失函数,该损失函数由两部分组成:一部分是正类损失,另一部分是负类损失。正类损失的目标是使模型能够正确预测图像的正标签,负类损失的目标是使模型能够区分图像的负标签。损失函数的具体形式未知,需要在论文中查找。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MLCD方法在多个下游任务上取得了显著的性能提升。例如,在线性探针任务中,MLCD方法优于现有的聚类判别方法。在零样本分类和图像-文本检索任务中,MLCD方法也取得了SOTA性能。这些结果验证了MLCD方法在视觉表征学习方面的有效性。

🎯 应用场景

该研究成果可广泛应用于图像分类、图像检索、目标检测等计算机视觉任务中。通过提升视觉表征学习的效果,可以提高这些任务的性能。此外,该方法还可以应用于多模态学习领域,例如图像-文本检索,从而实现更准确的跨模态信息匹配。未来,该方法有望推动计算机视觉和人工智能技术的进一步发展。

📄 摘要(原文)

Contrastive Language Image Pre-training (CLIP) has recently demonstrated success across various tasks due to superior feature representation empowered by image-text contrastive learning. However, the instance discrimination method used by CLIP can hardly encode the semantic structure of training data. To handle this limitation, cluster discrimination has been proposed through iterative cluster assignment and classification. Nevertheless, most cluster discrimination approaches only define a single pseudo-label for each image, neglecting multi-label signals in the image. In this paper, we propose a novel Multi-Label Cluster Discrimination method named MLCD to enhance representation learning. In the clustering step, we first cluster the large-scale LAION-400M dataset into one million centers based on off-the-shelf embedding features. Considering that natural images frequently contain multiple visual objects or attributes, we select the multiple closest centers as auxiliary class labels. In the discrimination step, we design a novel multi-label classification loss, which elegantly separates losses from positive classes and negative classes, and alleviates ambiguity on decision boundary. We validate the proposed multi-label cluster discrimination method with experiments on different scales of models and pre-training datasets. Experimental results show that our method achieves state-of-the-art performance on multiple downstream tasks including linear probe, zero-shot classification, and image-text retrieval. Code and models have been released at https://github.com/deepglint/unicom .