SINDER: Repairing the Singular Defects of DINOv2

作者: Haoqi Wang, Tong Zhang, Mathieu Salzmann

分类: cs.CV

发布日期: 2024-07-23

备注: ECCV 2024

🔗 代码/项目: GITHUB

💡 一句话要点

SINDER通过平滑正则化修复DINOv2的奇异缺陷，提升下游任务性能。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: Vision Transformer DINOv2 奇异缺陷 平滑正则化 微调 无监督分割 深度估计

📋 核心要点

现有Vision Transformer模型在patch token中存在伪影，影响模型性能，且原因不明。
提出一种新的微调平滑正则化方法，通过纠正网络权重的奇异向量来修复结构缺陷。
在多种下游任务上验证了该方法的有效性，显著提升了无监督分割、分类等任务的性能。

📝 摘要（中文）

大规模数据集上训练的Vision Transformer模型，其提取的patch token中常存在伪影。虽然可以通过使用额外的分类token重新训练整个模型来缓解这些缺陷，但这些token存在的基本原因仍不清楚。本文通过理论分析与经验观察相结合，对这一现象进行了深入研究。研究结果表明，这些伪影源于预训练网络本身，特别是源于网络权重的leading left singular vector。此外，为了减轻这些缺陷，我们提出了一种新的微调平滑正则化方法，该方法仅使用少量数据集即可纠正结构缺陷，从而避免了完全重新训练的需要。我们在各种下游任务（包括无监督分割、分类、有监督分割和深度估计）上验证了我们的方法，证明了其在提高模型性能方面的有效性。

🔬 方法详解

问题定义：论文旨在解决DINOv2等Vision Transformer模型中存在的奇异缺陷问题，这些缺陷表现为patch token中的伪影，影响模型在下游任务中的表现。现有方法通常需要重新训练整个模型，计算成本高昂，且未能从根本上解决问题。

核心思路：论文的核心思路是，这些奇异缺陷源于预训练网络权重的leading left singular vector。通过对该奇异向量进行平滑正则化，可以有效地修复网络的结构缺陷，从而减轻伪影，提升模型性能。这种方法避免了完全重新训练模型，降低了计算成本。

技术框架：该方法主要包含两个阶段：首先，对预训练的DINOv2模型进行分析，识别出导致奇异缺陷的leading left singular vector；然后，在微调阶段，引入平滑正则化项，对该奇异向量进行约束，使其更加平滑。整个过程只需要少量数据集即可完成。

关键创新：该方法的关键创新在于，它从理论上揭示了奇异缺陷的根源，并提出了针对性的解决方案。与现有方法相比，该方法不需要完全重新训练模型，计算成本更低，且能够更有效地修复网络结构缺陷。

关键设计：平滑正则化项的设计是关键。具体而言，该正则化项旨在最小化leading left singular vector的梯度范数，从而使其更加平滑。正则化系数的选择需要根据具体任务进行调整。此外，论文还研究了不同微调策略对模型性能的影响。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SINDER方法在无监督分割、分类、有监督分割和深度估计等任务上均取得了显著的性能提升。例如，在无监督分割任务中，SINDER方法相比基线方法提升了多个百分点。此外，SINDER方法仅需少量数据即可达到良好的效果，验证了其高效性和实用性。

🎯 应用场景

该研究成果可广泛应用于计算机视觉领域，例如图像分割、目标检测、深度估计等。通过修复预训练模型的奇异缺陷，可以提升模型在各种下游任务中的性能，降低模型部署的成本，并促进视觉模型的泛化能力。

📄 摘要（原文）

Vision Transformer models trained on large-scale datasets, although effective, often exhibit artifacts in the patch token they extract. While such defects can be alleviated by re-training the entire model with additional classification tokens, the underlying reasons for the presence of these tokens remain unclear. In this paper, we conduct a thorough investigation of this phenomenon, combining theoretical analysis with empirical observations. Our findings reveal that these artifacts originate from the pre-trained network itself, specifically stemming from the leading left singular vector of the network's weights. Furthermore, to mitigate these defects, we propose a novel fine-tuning smooth regularization that rectifies structural deficiencies using only a small dataset, thereby avoiding the need for complete re-training. We validate our method on various downstream tasks, including unsupervised segmentation, classification, supervised segmentation, and depth estimation, demonstrating its effectiveness in improving model performance. Codes and checkpoints are available at https://github.com/haoqiwang/sinder.

SINDER: Repairing the Singular Defects of DINOv2

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理