One Leaf Reveals the Season: Occlusion-Based Contrastive Learning with Semantic-Aware Views for Efficient Visual Representation

📄 arXiv: 2411.09858v2 📥 PDF

作者: Xiaoyu Yang, Lijian Xu, Hongsheng Li, Shaoting Zhang

分类: cs.CV

发布日期: 2024-11-15 (更新: 2025-02-14)

备注: 16 pages


💡 一句话要点

提出基于遮挡的对比学习OCL,通过语义感知视图高效学习视觉表征。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 对比学习 自监督学习 视觉表征学习 遮挡 Vision Transformer 预训练 语义理解

📋 核心要点

  1. 现有视觉表征学习方法存在概念冗余,且依赖手工数据增强或额外模块,效率较低。
  2. OCL通过随机遮挡图像patch生成语义差异视图,利用对比学习提取高层语义特征,避免高频干扰。
  3. 实验表明,OCL在ViT-L/16上仅用少量GPU资源即可高效预训练,并在下游任务中取得良好效果。

📝 摘要(中文)

本文提出了一种可扩展且直接的预训练范式,用于高效的视觉概念表征,称为遮挡图像对比学习(OCL)。我们的OCL方法非常简单:我们随机掩盖图像中的patch以生成不同的视图,并在一个mini-batch的图像中对比它们。OCL背后的核心思想包含两个设计。首先,被掩盖的tokens有潜力显著减少图像中固有的概念冗余,并在语义概念层面而非实例层面创建具有显著细粒度差异的不同视图。其次,对比学习擅长在预训练期间提取高层语义概念特征,从而避免了高频干扰和与图像重建相关的额外成本。重要的是,OCL能够高效地学习高度语义化的概念表征,而无需依赖手工设计的数据增强或额外的辅助模块。实验表明,OCL在Vision Transformers上具有很高的可扩展性,例如ViT-L/16仅使用4个A100 GPU即可在133小时内完成预训练,并在下游微调任务中达到85.8%的准确率。

🔬 方法详解

问题定义:现有自监督学习方法在视觉表征学习中存在概念冗余问题,即图像中包含大量相似或重复的信息,导致模型学习效率低下。此外,许多方法依赖于手工设计的数据增强策略或额外的辅助模块(例如图像重建),增加了计算成本和模型复杂度。因此,如何高效地学习具有丰富语义信息的视觉表征是一个关键挑战。

核心思路:OCL的核心思路是通过随机遮挡图像的patch来减少概念冗余,并生成具有显著语义差异的视图。遮挡操作迫使模型关注图像中更具判别性的区域,从而学习到更鲁棒和泛化的特征。同时,利用对比学习来提取高层语义概念特征,避免了对像素级别细节的过度关注,从而提高了学习效率。

技术框架:OCL的整体框架包括以下几个步骤:1) 输入图像经过随机遮挡操作,生成两个不同的视图;2) 这两个视图分别通过Vision Transformer (ViT) 编码器提取特征;3) 利用对比学习损失(例如InfoNCE)来最大化同一图像不同视图之间的相似性,同时最小化不同图像视图之间的相似性。整个过程无需手工数据增强或额外的辅助模块。

关键创新:OCL最重要的创新点在于其基于遮挡的视图生成方式,它能够有效地减少图像中的概念冗余,并创建具有显著语义差异的视图。与传统的基于数据增强的视图生成方法相比,OCL更加简单高效,且能够更好地捕捉图像中的高层语义信息。此外,OCL避免了图像重建等额外的预训练任务,进一步提高了学习效率。

关键设计:OCL的关键设计包括:1) 随机遮挡的比例:实验中通常采用较大的遮挡比例(例如30%-50%)以确保能够有效地减少概念冗余;2) 对比学习损失函数:InfoNCE损失函数被广泛应用于OCL中,用于最大化同一图像不同视图之间的互信息;3) ViT编码器:ViT作为一种强大的视觉Transformer模型,能够有效地提取图像的全局特征。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OCL在ImageNet数据集上进行了预训练,并在多个下游任务上进行了评估。实验结果表明,OCL能够以更少的计算资源和更短的训练时间,达到与现有自监督学习方法相当甚至更好的性能。例如,使用ViT-L/16模型,OCL仅使用4个A100 GPU在133小时内完成预训练,并在下游微调任务中达到85.8%的准确率,超过了许多需要更多计算资源的现有方法。

🎯 应用场景

OCL预训练方法可广泛应用于各种计算机视觉任务,例如图像分类、目标检测、语义分割等。通过在大型无标签数据集上进行预训练,OCL可以学习到通用的视觉表征,从而提高下游任务的性能和泛化能力。此外,OCL的高效性使其能够更容易地应用于资源受限的场景,例如移动设备或边缘计算平台。

📄 摘要(原文)

This paper proposes a scalable and straightforward pre-training paradigm for efficient visual conceptual representation called occluded image contrastive learning (OCL). Our OCL approach is simple: we randomly mask patches to generate different views within an image and contrast them among a mini-batch of images. The core idea behind OCL consists of two designs. First, masked tokens have the potential to significantly diminish the conceptual redundancy inherent in images, and create distinct views with substantial fine-grained differences on the semantic concept level instead of the instance level. Second, contrastive learning is adept at extracting high-level semantic conceptual features during the pre-training, circumventing the high-frequency interference and additional costs associated with image reconstruction. Importantly, OCL learns highly semantic conceptual representations efficiently without relying on hand-crafted data augmentations or additional auxiliary modules. Empirically, OCL demonstrates high scalability with Vision Transformers, as the ViT-L/16 can complete pre-training in 133 hours using only 4 A100 GPUs, achieving 85.8\% accuracy in downstream fine-tuning tasks. Code is available at https://anonymous.4open.science/r/OLRS/.