DINOv2 Meets Text: A Unified Framework for Image- and Pixel-Level Vision-Language Alignment

作者: Cijo Jose, Théo Moutakanni, Dahyun Kang, Federico Baldassarre, Timothée Darcet, Hu Xu, Daniel Li, Marc Szafraniec, Michaël Ramamonjisoa, Maxime Oquab, Oriane Siméoni, Huy V. Vo, Patrick Labatut, Piotr Bojanowski

分类: cs.CV

发布日期: 2024-12-20

💡 一句话要点

DINOv2.txt：统一图像和像素级视觉-语言对齐框架

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言对齐 自监督学习 DINOv2 开放词汇语义分割 零样本分类

📋 核心要点

现有自监督视觉模型缺乏与语言的有效对齐，限制了其在开放词汇任务中的应用。
DINOv2.txt通过训练文本编码器与冻结的DINOv2视觉模型对齐，实现了视觉-语言的统一。
该方法在零样本分类和开放词汇语义分割任务上取得了SOTA结果，且计算成本远低于CLIP。

📝 摘要（中文）

自监督视觉基础模型能够产生强大的嵌入，并在各种下游任务中取得显著的性能。然而，与像CLIP这样的视觉-语言模型不同，自监督视觉特征不容易与语言对齐，这阻碍了它们在开放词汇任务中的应用。本文提出了一种名为dino.txt的方法，为广泛使用的自监督视觉编码器DINOv2解锁了这种新能力。该方法基于LiT训练策略，该策略训练文本编码器以与冻结的视觉模型对齐，但在密集任务上导致不令人满意的结果。本文提出了几个关键要素，以提高全局和密集任务的性能，例如将[CLS] token与patch平均值连接以训练对齐，以及使用文本和图像模态来管理数据。通过这些，成功地训练了一个类似CLIP的模型，其计算成本仅为CLIP的一小部分，同时在零样本分类和开放词汇语义分割中实现了最先进的结果。

🔬 方法详解

问题定义：现有自监督视觉模型（如DINOv2）虽然在图像表征学习方面表现出色，但其特征空间与语言空间缺乏直接的对齐，导致难以直接应用于需要理解文本描述的开放词汇任务，例如零样本图像分类和开放词汇语义分割。LiT等方法尝试通过训练文本编码器与冻结的视觉模型对齐来解决这个问题，但在密集预测任务（如语义分割）上的效果并不理想。

核心思路：本文的核心思路是改进LiT的训练策略，使其能够更好地将DINOv2的视觉特征与文本特征对齐，从而在全局图像理解和像素级别的密集预测任务上都能取得良好的性能。关键在于提升文本编码器学习到的特征与DINOv2视觉特征之间的对应关系，尤其是在像素级别。

技术框架：dino.txt的整体框架包括一个预训练的DINOv2视觉编码器（保持冻结）和一个待训练的文本编码器。训练过程中，图像通过DINOv2提取视觉特征，文本描述通过文本编码器提取文本特征。然后，通过对比学习的方式，使得对应的图像和文本特征在嵌入空间中尽可能接近。为了提升密集预测任务的性能，该框架特别关注像素级别的特征对齐。

关键创新：该方法的主要创新点在于：1) 改进了特征对齐方式，将[CLS] token（代表全局文本信息）与patch平均特征（代表局部图像信息）连接起来，用于训练对齐，从而兼顾了全局和局部的信息；2) 提出了基于文本和图像模态的数据管理方法，用于筛选高质量的训练数据，提高训练效率和模型性能。

关键设计：在特征对齐方面，作者没有直接使用DINOv2输出的patch特征，而是计算了patch特征的平均值，并将其与文本编码器的[CLS] token连接，作为最终的文本-图像对齐特征。这种设计旨在融合全局文本信息和局部图像信息，从而提升模型在密集预测任务上的性能。此外，数据管理策略也至关重要，具体细节未知。

🖼️ 关键图片

📊 实验亮点

dino.txt在零样本分类和开放词汇语义分割任务上取得了state-of-the-art的结果，并且训练成本远低于CLIP。具体的性能数据和对比基线未知，但摘要强调了其在计算效率方面的优势，使其更易于部署和应用。

🎯 应用场景

dino.txt在零样本图像分类、开放词汇语义分割等领域具有广泛的应用前景。它可以用于构建更智能的图像搜索系统，实现基于文本描述的图像编辑，以及开发更强大的视觉问答系统。该研究有助于推动视觉-语言模型的发展，并为各种下游任务提供更有效的解决方案。

📄 摘要（原文）

Self-supervised visual foundation models produce powerful embeddings that achieve remarkable performance on a wide range of downstream tasks. However, unlike vision-language models such as CLIP, self-supervised visual features are not readily aligned with language, hindering their adoption in open-vocabulary tasks. Our method, named dino.txt, unlocks this new ability for DINOv2, a widely used self-supervised visual encoder. We build upon the LiT training strategy, which trains a text encoder to align with a frozen vision model but leads to unsatisfactory results on dense tasks. We propose several key ingredients to improve performance on both global and dense tasks, such as concatenating the [CLS] token with the patch average to train the alignment and curating data using both text and image modalities. With these, we successfully train a CLIP-like model with only a fraction of the computational cost compared to CLIP while achieving state-of-the-art results in zero-shot classification and open-vocabulary semantic segmentation.

DINOv2 Meets Text: A Unified Framework for Image- and Pixel-Level Vision-Language Alignment

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理