SINDER: Repairing the Singular Defects of DINOv2

📄 arXiv: 2407.16826v1 📥 PDF

作者: Haoqi Wang, Tong Zhang, Mathieu Salzmann

分类: cs.CV

发布日期: 2024-07-23

备注: ECCV 2024

🔗 代码/项目: GITHUB


💡 一句话要点

SINDER通过平滑正则化修复DINOv2的奇异缺陷,提升下游任务性能。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: Vision Transformer DINOv2 奇异缺陷 平滑正则化 微调 无监督分割 深度估计

📋 核心要点

  1. 现有Vision Transformer模型在patch token中存在伪影,影响模型性能,且原因不明。
  2. 提出一种新的微调平滑正则化方法,通过纠正网络权重的奇异向量来修复结构缺陷。
  3. 在多种下游任务上验证了该方法的有效性,显著提升了无监督分割、分类等任务的性能。

📝 摘要(中文)

大规模数据集上训练的Vision Transformer模型,其提取的patch token中常存在伪影。虽然可以通过使用额外的分类token重新训练整个模型来缓解这些缺陷,但这些token存在的基本原因仍不清楚。本文通过理论分析与经验观察相结合,对这一现象进行了深入研究。研究结果表明,这些伪影源于预训练网络本身,特别是源于网络权重的leading left singular vector。此外,为了减轻这些缺陷,我们提出了一种新的微调平滑正则化方法,该方法仅使用少量数据集即可纠正结构缺陷,从而避免了完全重新训练的需要。我们在各种下游任务(包括无监督分割、分类、有监督分割和深度估计)上验证了我们的方法,证明了其在提高模型性能方面的有效性。

🔬 方法详解

问题定义:论文旨在解决DINOv2等Vision Transformer模型中存在的奇异缺陷问题,这些缺陷表现为patch token中的伪影,影响模型在下游任务中的表现。现有方法通常需要重新训练整个模型,计算成本高昂,且未能从根本上解决问题。

核心思路:论文的核心思路是,这些奇异缺陷源于预训练网络权重的leading left singular vector。通过对该奇异向量进行平滑正则化,可以有效地修复网络的结构缺陷,从而减轻伪影,提升模型性能。这种方法避免了完全重新训练模型,降低了计算成本。

技术框架:该方法主要包含两个阶段:首先,对预训练的DINOv2模型进行分析,识别出导致奇异缺陷的leading left singular vector;然后,在微调阶段,引入平滑正则化项,对该奇异向量进行约束,使其更加平滑。整个过程只需要少量数据集即可完成。

关键创新:该方法的关键创新在于,它从理论上揭示了奇异缺陷的根源,并提出了针对性的解决方案。与现有方法相比,该方法不需要完全重新训练模型,计算成本更低,且能够更有效地修复网络结构缺陷。

关键设计:平滑正则化项的设计是关键。具体而言,该正则化项旨在最小化leading left singular vector的梯度范数,从而使其更加平滑。正则化系数的选择需要根据具体任务进行调整。此外,论文还研究了不同微调策略对模型性能的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SINDER方法在无监督分割、分类、有监督分割和深度估计等任务上均取得了显著的性能提升。例如,在无监督分割任务中,SINDER方法相比基线方法提升了多个百分点。此外,SINDER方法仅需少量数据即可达到良好的效果,验证了其高效性和实用性。

🎯 应用场景

该研究成果可广泛应用于计算机视觉领域,例如图像分割、目标检测、深度估计等。通过修复预训练模型的奇异缺陷,可以提升模型在各种下游任务中的性能,降低模型部署的成本,并促进视觉模型的泛化能力。

📄 摘要(原文)

Vision Transformer models trained on large-scale datasets, although effective, often exhibit artifacts in the patch token they extract. While such defects can be alleviated by re-training the entire model with additional classification tokens, the underlying reasons for the presence of these tokens remain unclear. In this paper, we conduct a thorough investigation of this phenomenon, combining theoretical analysis with empirical observations. Our findings reveal that these artifacts originate from the pre-trained network itself, specifically stemming from the leading left singular vector of the network's weights. Furthermore, to mitigate these defects, we propose a novel fine-tuning smooth regularization that rectifies structural deficiencies using only a small dataset, thereby avoiding the need for complete re-training. We validate our method on various downstream tasks, including unsupervised segmentation, classification, supervised segmentation, and depth estimation, demonstrating its effectiveness in improving model performance. Codes and checkpoints are available at https://github.com/haoqiwang/sinder.