No Train, all Gain: Self-Supervised Gradients Improve Deep Frozen Representations

📄 arXiv: 2407.10964v2 📥 PDF

作者: Walter Simoncini, Spyros Gidaris, Andrei Bursuc, Yuki M. Asano

分类: cs.CV, cs.CL, cs.LG

发布日期: 2024-07-15 (更新: 2024-11-06)

备注: NeurIPS 2024. Code available at https://github.com/WalterSimoncini/fungivision


💡 一句话要点

FUNGI:利用自监督梯度提升冻结Transformer表征,无需训练。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 自监督学习 预训练模型 特征增强 零样本学习 Transformer 梯度 表征学习

📋 核心要点

  1. 现有预训练模型的特征提取能力有待提升,尤其是在无需额外训练的情况下。
  2. FUNGI方法通过融合自监督梯度信息,增强预训练模型的特征表达能力,无需微调。
  3. 实验表明,FUNGI在多个模态和任务上均能显著提升性能,尤其在上下文场景理解方面。

📝 摘要(中文)

本文提出了一种名为FUNGI(Features from UNsupervised GradIents,来自无监督梯度的特征)的方法,通过利用自监督梯度来增强Transformer编码器的特征。该方法简单有效:对于任何预训练模型,首先计算每个输入的各种自监督目标的梯度,然后将这些梯度投影到较低维度,并与模型的输出嵌入连接。在来自视觉的11个数据集、来自自然语言处理的5个数据集和来自音频的2个数据集上,通过k近邻分类评估生成的特征。结果表明,FUNGI特征在各种大小和预训练策略的骨干网络上,都提供了优于原始嵌入的一致性能提升。此外,FUNGI特征还能改善线性分类、聚类和图像检索,并显著提高预训练模型基于检索的上下文场景理解能力,例如,在语义分割任务上,相对于DINO模型提升了+17%,且无需任何训练。

🔬 方法详解

问题定义:论文旨在提升预训练Transformer编码器的特征表达能力,特别是在零样本或少样本场景下。现有方法通常依赖于微调预训练模型,计算成本高昂,且可能导致过拟合。因此,如何在不进行训练的情况下,有效利用预训练模型的知识是一个挑战。

核心思路:论文的核心思路是利用自监督学习的梯度信息来增强预训练模型的特征。作者认为,自监督学习的梯度包含了关于输入数据的丰富信息,可以作为一种补充信息来提升特征的判别性。通过将这些梯度信息融入到预训练模型的输出嵌入中,可以有效地提升特征的表达能力,而无需进行任何训练。

技术框架:FUNGI方法的整体框架如下:1) 对于给定的预训练模型和输入数据,计算多个自监督目标的梯度。2) 将这些梯度投影到较低维度,以降低计算成本和噪声。3) 将投影后的梯度与预训练模型的输出嵌入连接,形成增强后的特征。4) 使用增强后的特征进行下游任务,如k近邻分类、线性分类、聚类和图像检索。

关键创新:FUNGI方法的关键创新在于利用自监督梯度作为一种无需训练的特征增强手段。与传统的微调方法相比,FUNGI无需任何训练,计算成本低廉,且不易过拟合。此外,FUNGI方法可以与各种预训练模型和自监督目标相结合,具有很强的通用性。

关键设计:在具体实现中,作者使用了多种自监督目标,包括对比学习、掩码语言模型等。为了降低计算成本,作者使用PCA将梯度投影到较低维度。此外,作者还探索了不同的梯度连接方式,最终选择了简单的连接操作。对于不同的下游任务,作者使用了不同的评估指标,如k近邻分类的准确率、线性分类的准确率、聚类的NMI和ARI、图像检索的Recall@K。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FUNGI方法在多个数据集和任务上均取得了显著的性能提升。例如,在语义分割任务上,FUNGI方法相对于DINO模型提升了+17%。此外,FUNGI方法在k近邻分类、线性分类、聚类和图像检索等任务上也取得了优于原始嵌入的性能。这些结果表明,FUNGI方法是一种有效的特征增强手段,可以显著提升预训练模型的性能。

🎯 应用场景

FUNGI方法可广泛应用于各种需要利用预训练模型特征的场景,例如零样本学习、少样本学习、迁移学习等。该方法尤其适用于计算资源有限或需要快速部署的场景。例如,在机器人导航、自动驾驶等领域,可以利用FUNGI方法提升预训练模型的场景理解能力,而无需进行昂贵的微调。

📄 摘要(原文)

This paper introduces FUNGI, Features from UNsupervised GradIents, a method to enhance the features of transformer encoders by leveraging self-supervised gradients. Our method is simple: given any pretrained model, we first compute gradients from various self-supervised objectives for each input. These gradients are projected to a lower dimension and then concatenated with the model's output embedding. The resulting features are evaluated on k-nearest neighbor classification over 11 datasets from vision, 5 from natural language processing, and 2 from audio. Across backbones spanning various sizes and pretraining strategies, FUNGI features provide consistent performance improvements over the embeddings. We also show that using FUNGI features can benefit linear classification, clustering and image retrieval, and that they significantly improve the retrieval-based in-context scene understanding abilities of pretrained models, for example improving upon DINO by +17% for semantic segmentation - without any training.