You Don't Need Domain-Specific Data Augmentations When Scaling Self-Supervised Learning

📄 arXiv: 2406.09294v2 📥 PDF

作者: Théo Moutakanni, Maxime Oquab, Marc Szafraniec, Maria Vakalopoulou, Piotr Bojanowski

分类: cs.LG, cs.CV

发布日期: 2024-06-13 (更新: 2024-11-29)


💡 一句话要点

大规模自监督学习中,仅使用裁剪的数据增强即可达到SOTA性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自监督学习 数据增强 联合嵌入架构 DINOv2 大规模训练

📋 核心要点

  1. 现有的联合嵌入架构自监督学习方法过度依赖复杂的数据增强,这增加了计算成本和模型设计的复杂性。
  2. 本文挑战了数据增强在联合嵌入架构中的必要性,提出通过扩大训练数据规模,仅使用裁剪也能获得强大的图像表示。
  3. 实验表明,在DINOv2上,仅使用裁剪的数据增强方法在性能上达到了最先进水平,验证了该方法的有效性。

📝 摘要(中文)

本文研究了联合嵌入架构(JEA)中数据增强的重要性。以往的JEA自监督学习方法通常依赖于精心设计的数据增强。与此不同,诸如BEIT、MAE和I-JEPA等生成式或预测式架构在没有数据增强(除了masking)的情况下也表现出色。本文通过对DINOv2进行案例研究,表明在足够大的训练数据集下,JEA仅使用裁剪(不调整大小)也能获得强大的图像表示,达到最先进的结果,并使用最少的数据增强。此外,本文还讨论了计算资源约束对深度学习研究结果的影响,指出计算资源限制可能导致不同的结论。

🔬 方法详解

问题定义:现有基于联合嵌入架构的自监督学习方法通常需要大量且精心设计的领域特定数据增强,这增加了训练的复杂性和计算成本。论文旨在探究在何种条件下可以减少甚至消除对这些数据增强的需求,从而简化自监督学习流程。

核心思路:论文的核心思路是,通过增加训练数据的规模,模型可以学习到足够鲁棒的特征表示,从而降低对数据增强的依赖。换句话说,数据量的提升可以弥补数据增强带来的不变性。

技术框架:论文以DINOv2为基础模型,通过控制数据增强的类型和强度,并在不同规模的数据集上进行训练,来评估数据增强对模型性能的影响。主要流程包括:1)选择DINOv2作为基线模型;2)减少数据增强的种类,仅保留裁剪操作;3)在不同大小的数据集上训练模型;4)评估模型在下游任务上的性能。

关键创新:论文最重要的创新在于挑战了数据增强在联合嵌入架构自监督学习中的必要性。以往的研究普遍认为数据增强是不可或缺的,而本文证明了在数据规模足够大的情况下,可以显著减少对数据增强的依赖,甚至仅使用裁剪就能达到SOTA性能。

关键设计:论文的关键设计在于控制变量,通过逐步减少数据增强的种类和强度,并同时增加训练数据的规模,来观察模型性能的变化。具体来说,论文对比了使用不同数据增强策略(包括强数据增强和仅裁剪)的DINOv2模型在ImageNet上的性能。此外,论文还仔细研究了裁剪的尺寸,发现使用较小的裁剪尺寸可以带来更好的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在DINOv2模型上,仅使用裁剪的数据增强方法在ImageNet分类任务上达到了最先进的性能,验证了大规模数据可以替代复杂数据增强的观点。具体而言,该方法在减少计算成本的同时,保持了甚至提升了模型的性能。

🎯 应用场景

该研究成果可应用于图像识别、目标检测、图像分割等计算机视觉任务。通过减少对领域特定数据增强的需求,可以降低自监督学习的门槛,加速模型在资源受限环境下的部署,并促进跨领域知识迁移。此外,该研究也为未来的自监督学习算法设计提供了新的思路。

📄 摘要(原文)

Self-Supervised learning (SSL) with Joint-Embedding Architectures (JEA) has led to outstanding performances. All instantiations of this paradigm were trained using strong and well-established hand-crafted data augmentations, leading to the general belief that they are required for the proper training and performance of such models. On the other hand, generative reconstruction-based models such as BEIT and MAE or Joint-Embedding Predictive Architectures such as I-JEPA have shown strong performance without using data augmentations except masking. In this work, we challenge the importance of invariance and data-augmentation in JEAs at scale. By running a case-study on a recent SSL foundation model - DINOv2 - we show that strong image representations can be obtained with JEAs and only cropping without resizing provided the training data is large enough, reaching state-of-the-art results and using the least amount of augmentation in the literature. Through this study, we also discuss the impact of compute constraints on the outcomes of experimental deep learning research, showing that they can lead to very different conclusions.