SynCo: Synthetic Hard Negatives for Contrastive Visual Representation Learning
作者: Nikolaos Giakoumoglou, Tania Stathaki
分类: cs.CV, cs.AI
发布日期: 2024-10-03 (更新: 2025-02-17)
备注: Preprint. Code: https://github.com/giakoumoglou/synco, Supplementary: https://giakoumoglou.com/src/synco_suppl.pdf
💡 一句话要点
SynCo:通过合成难负样本提升对比视觉表征学习
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 对比学习 自监督学习 视觉表征学习 难负样本 合成数据
📋 核心要点
- 对比学习依赖负样本区分,但现有方法难以有效利用与锚点相似的难负样本。
- SynCo通过在表征空间合成难负样本,增加训练难度,提升模型区分细微差异的能力。
- 实验表明,SynCo在ImageNet分类和COCO检测/分割任务上均优于现有方法。
📝 摘要(中文)
对比学习已成为自监督视觉表征学习中的主流方法,但如何有效利用难负样本(即与锚点样本非常相似的样本)仍然是一个挑战。本文提出SynCo(对比学习中的合成负样本),一种通过在表征空间中生成合成难负样本来提高模型性能的新方法。SynCo基于MoCo框架,引入了六种策略,用于以最小的计算开销动态创建多样化的合成难负样本。SynCo实现了更快的训练和更强的表征学习能力,在ImageNet ILSVRC-2012线性评估中超过MoCo-v2 +0.4%,超过MoCHI +1.0%。它也能更有效地迁移到检测任务,在PASCAL VOC检测上取得了优异的结果(57.2% AP),并在COCO检测(+1.0% AP)和实例分割(+0.8% AP)上显著优于MoCo-v2。我们的合成难负样本生成方法显著增强了通过自监督对比学习获得的视觉表征。
🔬 方法详解
问题定义:对比学习旨在学习区分相似和不相似样本的表征。然而,有效利用难负样本(与锚点样本在语义上非常接近的样本)仍然是一个挑战。现有方法要么难以生成高质量的难负样本,要么计算成本过高,限制了其在实际应用中的效果。
核心思路:SynCo的核心思路是在表征空间中合成难负样本。通过对现有样本的表征进行扰动或组合,生成与锚点样本相似但又不完全相同的负样本。这种方法可以有效地增加训练难度,迫使模型学习更具区分性的表征。作者认为,通过精心设计的合成策略,可以生成多样且高质量的难负样本,从而提升对比学习的效果。
技术框架:SynCo基于MoCo框架,主要包含以下几个模块:1) 编码器:将输入图像编码为表征向量。2) 记忆队列:存储历史样本的表征向量,作为负样本池。3) 合成难负样本生成器:根据不同的策略,基于记忆队列中的样本生成合成难负样本。4) 对比损失函数:用于优化模型,使锚点样本与其正样本的表征更接近,与其负样本(包括合成负样本)的表征更远离。
关键创新:SynCo的关键创新在于提出了多种合成难负样本的策略。这些策略包括:1) 均值扰动:对记忆队列中的样本表征添加随机噪声。2) 线性组合:将多个记忆队列中的样本表征进行线性组合。3) 高斯扰动:对记忆队列中的样本表征添加高斯噪声。4) 梯度扰动:沿着梯度方向对记忆队列中的样本表征进行扰动。5) 对抗扰动:使用对抗攻击生成难负样本。6) 混合扰动:结合多种扰动策略。这些策略旨在生成多样且具有挑战性的难负样本,从而提升模型的鲁棒性和泛化能力。
关键设计:SynCo的关键设计包括:1) 合成策略的选择:作者实验了多种合成策略,并分析了它们对模型性能的影响。2) 扰动幅度:扰动幅度的大小会影响合成负样本的难度。作者通过实验确定了合适的扰动幅度。3) 损失函数:SynCo使用标准的InfoNCE损失函数,但将其应用于包含合成负样本的样本集。4) 动量更新:使用动量更新编码器参数,以提高训练的稳定性。
🖼️ 关键图片
📊 实验亮点
SynCo在ImageNet ILSVRC-2012线性评估中超越MoCo-v2 +0.4%,超过MoCHI +1.0%。在PASCAL VOC检测上取得了57.2% AP,并在COCO检测(+1.0% AP)和实例分割(+0.8% AP)上显著优于MoCo-v2。这些结果表明,SynCo能够有效地提升对比学习的性能,并在各种视觉任务中取得优异的结果。
🎯 应用场景
SynCo具有广泛的应用前景,可用于各种视觉表征学习任务,例如图像分类、目标检测、图像分割等。通过提升自监督学习的性能,SynCo可以减少对标注数据的依赖,降低训练成本。此外,SynCo还可以应用于迁移学习,将学习到的表征迁移到其他任务中,提高模型的泛化能力。该研究对于推动自监督学习的发展具有重要意义。
📄 摘要(原文)
Contrastive learning has become a dominant approach in self-supervised visual representation learning, but efficiently leveraging hard negatives, which are samples closely resembling the anchor, remains challenging. We introduce SynCo (Synthetic negatives in Contrastive learning), a novel approach that improves model performance by generating synthetic hard negatives on the representation space. Building on the MoCo framework, SynCo introduces six strategies for creating diverse synthetic hard negatives on-the-fly with minimal computational overhead. SynCo achieves faster training and strong representation learning, surpassing MoCo-v2 by +0.4% and MoCHI by +1.0% on ImageNet ILSVRC-2012 linear evaluation. It also transfers more effectively to detection tasks achieving strong results on PASCAL VOC detection (57.2% AP) and significantly improving over MoCo-v2 on COCO detection (+1.0% AP) and instance segmentation (+0.8% AP). Our synthetic hard negative generation approach significantly enhances visual representations learned through self-supervised contrastive learning.