Contrastive Learning with Synthetic Positives

📄 arXiv: 2408.16965v2 📥 PDF

作者: Dewen Zeng, Yawen Wu, Xinrong Hu, Xiaowei Xu, Yiyu Shi

分类: cs.CV

发布日期: 2024-08-30 (更新: 2025-04-24)

备注: 8 pages, conference


💡 一句话要点

提出CLSP方法,利用合成图像作为对比学习的补充正样本,提升自监督学习性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 对比学习 自监督学习 扩散模型 合成数据 特征插值

📋 核心要点

  1. 现有最近邻对比学习方法受限于只能找到“容易”的正样本,导致模型学习到的表征区分性不足。
  2. CLSP方法利用扩散模型生成与锚定图像语义相似但背景不同的合成图像,作为“难”正样本。
  3. 实验表明,CLSP在多个数据集上显著提升了线性评估和迁移学习性能,优于现有自监督学习方法。

📝 摘要(中文)

本文提出了一种名为“基于合成正样本的对比学习”(CLSP)的新方法,旨在通过利用合成图像作为额外的正样本,来提升对比学习的性能。现有的最近邻对比学习方法主要依赖于识别“容易”的正样本对,即嵌入空间中已经非常接近的样本。CLSP利用无条件扩散模型生成合成图像,通过在扩散模型采样过程中进行特征插值,生成具有不同背景但语义内容与锚定图像相似的图像。这些图像被视为锚定图像的“难”正样本。将这些合成图像作为补充正样本加入对比损失中,在CIFAR10等多个基准数据集上,线性评估性能相比于之前的NNCLR和All4One方法提升超过2%和1%,达到了目前最优水平。在迁移学习基准测试中,CLSP在8个下游数据集中有6个优于现有的自监督学习框架。我们相信CLSP为未来在训练过程中结合合成数据的自监督学习研究建立了一个有价值的基线。

🔬 方法详解

问题定义:现有的基于最近邻的对比学习方法,其性能受到限制,因为最近邻算法主要识别的是“容易”的正样本,这些样本在嵌入空间中已经非常接近。这导致模型难以学习到更具区分性的特征表示,泛化能力受限。

核心思路:CLSP的核心思路是利用合成数据来扩充正样本集合,特别是引入“难”正样本。通过生成与锚定图像语义内容相似但视觉外观不同的图像,迫使模型学习对语义信息更鲁棒的表示。这样可以提高模型对不同背景、光照等因素的鲁棒性,从而提升泛化能力。

技术框架:CLSP的整体框架包括以下几个主要步骤:1) 使用无条件扩散模型生成潜在的合成图像。2) 在扩散模型的采样过程中,通过特征插值,控制生成图像的语义内容与锚定图像相似,但背景等视觉特征不同。3) 将生成的合成图像作为额外的正样本,与锚定图像一起输入到对比学习损失函数中进行训练。4) 使用标准的对比学习目标函数,例如InfoNCE,来优化模型参数。

关键创新:CLSP的关键创新在于利用扩散模型生成“难”正样本,并将其融入到对比学习框架中。与传统的数据增强方法相比,扩散模型能够生成更多样化、更逼真的图像,从而提供更有效的正样本。此外,通过特征插值,可以更精确地控制生成图像的语义内容,确保其与锚定图像的相似性。

关键设计:在扩散模型方面,论文使用了预训练的无条件扩散模型。在特征插值方面,具体的操作细节未知,但其目的是在扩散模型的中间层进行插值,以控制生成图像的语义信息。对比学习损失函数使用了标准的InfoNCE损失。具体的网络结构和超参数设置在论文中可能有所描述,但摘要中未提及。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CLSP在CIFAR10等多个基准数据集上取得了显著的性能提升。在线性评估中,CLSP相比于之前的NNCLR和All4One方法提升超过2%和1%,达到了目前最优水平。在迁移学习基准测试中,CLSP在8个下游数据集中有6个优于现有的自监督学习框架。这些实验结果表明,CLSP能够有效地利用合成数据来提升自监督学习的性能。

🎯 应用场景

CLSP方法具有广泛的应用前景,可以应用于图像分类、目标检测、图像分割等各种计算机视觉任务。尤其是在数据量有限或者数据分布不平衡的情况下,CLSP可以通过生成合成数据来增强模型的泛化能力。此外,该方法还可以应用于医学图像分析、遥感图像分析等领域,提升模型在复杂场景下的性能。

📄 摘要(原文)

Contrastive learning with the nearest neighbor has proved to be one of the most efficient self-supervised learning (SSL) techniques by utilizing the similarity of multiple instances within the same class. However, its efficacy is constrained as the nearest neighbor algorithm primarily identifies "easy" positive pairs, where the representations are already closely located in the embedding space. In this paper, we introduce a novel approach called Contrastive Learning with Synthetic Positives (CLSP) that utilizes synthetic images, generated by an unconditional diffusion model, as the additional positives to help the model learn from diverse positives. Through feature interpolation in the diffusion model sampling process, we generate images with distinct backgrounds yet similar semantic content to the anchor image. These images are considered "hard" positives for the anchor image, and when included as supplementary positives in the contrastive loss, they contribute to a performance improvement of over 2% and 1% in linear evaluation compared to the previous NNCLR and All4One methods across multiple benchmark datasets such as CIFAR10, achieving state-of-the-art methods. On transfer learning benchmarks, CLSP outperforms existing SSL frameworks on 6 out of 8 downstream datasets. We believe CLSP establishes a valuable baseline for future SSL studies incorporating synthetic data in the training process.