Analyzing Local Representations of Self-supervised Vision Transformers

📄 arXiv: 2401.00463v2 📥 PDF

作者: Ani Vanyan, Alvard Barseghyan, Hakob Tamazyan, Vahan Huroyan, Hrant Khachatrian, Martin Danelljan

分类: cs.CV

发布日期: 2023-12-31 (更新: 2024-03-21)


💡 一句话要点

分析自监督ViT的局部表征能力,揭示不同预训练方法的优劣与适用性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自监督学习 视觉Transformer 局部表征 对比学习 掩码图像建模

📋 核心要点

  1. 现有自监督ViT方法在局部表征能力上存在差异,影响其在下游任务中的表现,尤其是在少样本学习场景下。
  2. 论文通过设计评估框架,对比分析了不同自监督ViT方法(如DINO和MAE)的局部表征质量,并探究其适用性。
  3. 实验表明,对比学习方法DINO能产生更通用的patch表征,而MAE的高方差特征会损害基于距离的算法性能,移除这些特征可以提升MAE的性能。

📝 摘要(中文)

本文对多种自监督Vision Transformer (ViT) 的局部表征能力进行了对比分析。受大型语言模型的启发,我们研究了ViT在几乎无需微调的情况下执行各种计算机视觉任务的能力。我们设计了一个评估框架,用于分析局部(即patch级别)表征在少样本语义分割、实例识别、对象检索和跟踪中的质量。我们发现,与掩码图像建模相比,基于对比学习的方法(如DINO)产生更通用的patch表征,可以直接应用于下游任务,而无需参数调整。使用掩码自编码器等方法学习到的嵌入具有高方差特征,会损害基于距离的算法(如k-NN),并且不包含对大多数下游任务有用的信息。此外,我们证明了移除这些高方差特征可以增强MAE及其最新扩展Scale-MAE的k-NN性能。最后,我们发现了一个对象实例检索场景,其中在更多数据上预训练的DINOv2不如其计算量较小的DINO。

🔬 方法详解

问题定义:论文旨在分析不同自监督视觉Transformer(ViT)模型的局部表征能力,并评估其在各种下游计算机视觉任务中的表现。现有自监督学习方法,如掩码图像建模(例如MAE)和对比学习(例如DINO),在学习到的表征质量上存在差异,导致它们在不同任务上的性能表现不一致。特别是,MAE学习到的表征可能包含高方差特征,影响基于距离的算法的性能。

核心思路:论文的核心思路是通过设计一个综合的评估框架,直接分析不同自监督ViT模型学习到的局部(patch级别)表征的质量。该框架通过在多个下游任务(包括少样本语义分割、实例识别、对象检索和跟踪)上评估这些表征的性能,来揭示不同预训练方法的优劣。此外,论文还探索了如何通过移除高方差特征来改善MAE的性能。

技术框架:论文的评估框架主要包含以下几个步骤:1) 使用不同的自监督ViT模型(例如DINO、MAE、DINOv2、Scale-MAE)提取图像的局部表征;2) 将这些表征应用于各种下游任务,例如少样本语义分割、实例识别、对象检索和跟踪;3) 使用标准的评估指标来衡量每个模型在每个任务上的性能;4) 分析实验结果,比较不同模型的局部表征质量,并找出影响性能的关键因素。

关键创新:论文的关键创新在于对自监督ViT模型的局部表征能力进行了深入的对比分析,并揭示了不同预训练方法在学习到的表征质量上的差异。此外,论文还提出了一种通过移除高方差特征来改善MAE性能的方法,并验证了其有效性。论文还发现,在某些对象实例检索任务中,使用更多数据预训练的DINOv2不如DINO。

关键设计:论文的关键设计包括:1) 选择具有代表性的自监督ViT模型,例如DINO、MAE、DINOv2和Scale-MAE;2) 设计了涵盖不同计算机视觉任务的评估框架,包括少样本语义分割、实例识别、对象检索和跟踪;3) 使用k-NN等基于距离的算法来评估局部表征的质量;4) 采用移除高方差特征的方法来改善MAE的性能,具体做法是计算每个特征的方差,并移除方差高于某个阈值的特征。

📊 实验亮点

实验结果表明,DINO在少样本语义分割、实例识别、对象检索和跟踪等任务上表现优于MAE,表明其学习到的局部表征更具通用性。移除MAE的高方差特征可以显著提升其在k-NN分类任务上的性能。令人惊讶的是,在对象实例检索任务中,DINOv2的表现不如DINO,这表明更大的模型和更多的数据并不总是能带来更好的性能。

🎯 应用场景

该研究成果可应用于各种计算机视觉任务,例如图像检索、目标检测、语义分割和视频分析。通过选择合适的自监督预训练模型,可以提高下游任务的性能,并减少对大量标注数据的依赖。此外,该研究还可以指导自监督学习算法的设计,使其能够学习到更通用、更鲁棒的图像表征。

📄 摘要(原文)

In this paper, we present a comparative analysis of various self-supervised Vision Transformers (ViTs), focusing on their local representative power. Inspired by large language models, we examine the abilities of ViTs to perform various computer vision tasks with little to no fine-tuning. We design evaluation framework to analyze the quality of local, i.e.\ patch-level, representations in the context of few-shot semantic segmentation, instance identification, object retrieval and tracking. We discover that contrastive learning based methods like DINO produce more universal patch representations that can be immediately applied for downstream tasks with no parameter tuning, compared to masked image modeling. The embeddings learned using the latter approach, e.g. in masked autoencoders, have high variance features that harm distance-based algorithms, such as k-NN, and do not contain useful information for most downstream tasks. Furthermore, we demonstrate that removing these high-variance features enhances k-NN for MAE, as well as for its recent extension Scale-MAE. Finally, we find an object instance retrieval setting where DINOv2, a model pretrained on two orders of magnitude more data, falls short of its less compute intensive counterpart DINO.