Diffusion Feedback Helps CLIP See Better
作者: Wenxuan Wang, Quan Sun, Fan Zhang, Yepeng Tang, Jing Liu, Xinlong Wang
分类: cs.CV
发布日期: 2024-07-29 (更新: 2024-08-24)
🔗 代码/项目: GITHUB
💡 一句话要点
DIVA:利用扩散模型反馈提升CLIP的细粒度视觉能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: CLIP 扩散模型 自监督学习 视觉表征 细粒度视觉理解 多模态学习 图像生成
📋 核心要点
- CLIP在视觉细节理解方面存在不足,影响了其在下游任务中的表现,尤其是在细粒度视觉理解方面。
- DIVA利用文本到图像扩散模型为CLIP提供视觉反馈,通过优化图像表征来提升CLIP的视觉能力,无需额外的文本信息。
- 实验表明,DIVA显著提升了CLIP在MMVP-VLM等细粒度视觉理解基准上的性能,同时保持了其强大的零样本能力。
📝 摘要(中文)
对比语言-图像预训练(CLIP)擅长提取跨领域和模态的开放世界表征,已成为各种视觉和多模态任务的基础。然而,最近的研究表明CLIP存在严重的视觉缺陷,例如难以区分方向、数量、颜色、结构等。这些视觉缺陷也限制了构建在CLIP之上的多模态大型语言模型(MLLM)的感知能力。主要原因可能是用于训练CLIP的图像-文本对本质上存在偏差,因为文本缺乏独特性,图像缺乏多样性。本文提出了一种简单的CLIP模型后训练方法,通过自监督扩散过程在很大程度上克服了其视觉缺陷。我们引入了DIVA,它使用扩散模型作为CLIP的视觉助手。具体来说,DIVA利用来自文本到图像扩散模型的生成反馈来优化CLIP表征,仅使用图像(不使用相应的文本)。我们证明DIVA在很大程度上提高了CLIP在具有挑战性的MMVP-VLM基准测试上的性能,该基准测试在很大程度上评估了细粒度的视觉能力(例如,3-7%),并提高了MLLM和视觉模型在多模态理解和分割任务上的性能。在29个图像分类和检索基准上的广泛评估证实,我们的框架保留了CLIP强大的零样本能力。
🔬 方法详解
问题定义:CLIP在细粒度视觉理解方面存在不足,例如难以区分方向、数量、颜色、结构等。这限制了其在需要精细视觉感知的下游任务中的应用,同时也影响了基于CLIP构建的多模态模型的性能。现有方法通常依赖于更大量的图像-文本对进行训练,但难以解决数据本身存在的偏差问题。
核心思路:DIVA的核心思路是利用扩散模型生成高质量的图像,并将其作为CLIP的视觉助手,通过自监督的方式优化CLIP的图像表征。这种方法避免了对额外文本信息的依赖,而是利用扩散模型强大的生成能力来弥补CLIP在视觉细节理解方面的不足。
技术框架:DIVA的整体框架包括以下几个主要步骤:1) 使用预训练的文本到图像扩散模型,例如Stable Diffusion,根据随机文本prompt生成图像;2) 使用CLIP的图像编码器提取生成图像的特征;3) 利用扩散模型生成的图像和CLIP的图像特征,通过自监督学习的方式优化CLIP的图像编码器。优化的目标是使CLIP能够更好地捕捉图像中的细粒度视觉信息。
关键创新:DIVA的关键创新在于利用扩散模型作为CLIP的视觉助手,通过生成高质量的图像来提供视觉反馈。与传统的依赖于图像-文本对的训练方法不同,DIVA只需要图像数据,避免了对文本信息的依赖,从而可以更有效地解决CLIP在视觉细节理解方面的不足。
关键设计:DIVA的关键设计包括:1) 使用预训练的文本到图像扩散模型,保证生成图像的质量和多样性;2) 使用CLIP的图像编码器提取图像特征,保证与CLIP的兼容性;3) 设计合适的自监督损失函数,例如对比损失或三元组损失,以优化CLIP的图像编码器。具体的参数设置和网络结构需要根据具体的任务和数据集进行调整。
🖼️ 关键图片
📊 实验亮点
DIVA在MMVP-VLM基准测试上取得了显著的提升,例如在某些子任务上提升了3-7%。此外,DIVA还提高了MLLM和视觉模型在多模态理解和分割任务上的性能。在29个图像分类和检索基准上的广泛评估证实,DIVA在提升细粒度视觉理解能力的同时,保留了CLIP强大的零样本能力。
🎯 应用场景
DIVA可以广泛应用于各种需要细粒度视觉理解的场景,例如图像分类、目标检测、图像分割、视觉问答等。它可以提升多模态大型语言模型在视觉感知方面的能力,使其能够更好地理解和处理复杂的视觉信息。此外,DIVA还可以应用于机器人导航、自动驾驶等领域,提高机器对环境的感知和理解能力。
📄 摘要(原文)
Contrastive Language-Image Pre-training (CLIP), which excels at abstracting open-world representations across domains and modalities, has become a foundation for a variety of vision and multimodal tasks. However, recent studies reveal that CLIP has severe visual shortcomings, such as which can hardly distinguish orientation, quantity, color, structure, etc. These visual shortcomings also limit the perception capabilities of multimodal large language models (MLLMs) built on CLIP. The main reason could be that the image-text pairs used to train CLIP are inherently biased, due to the lack of the distinctiveness of the text and the diversity of images. In this work, we present a simple post-training approach for CLIP models, which largely overcomes its visual shortcomings via a self-supervised diffusion process. We introduce DIVA, which uses the DIffusion model as a Visual Assistant for CLIP. Specifically, DIVA leverages generative feedback from text-to-image diffusion models to optimize CLIP representations, with only images (without corresponding text). We demonstrate that DIVA improves CLIP's performance on the challenging MMVP-VLM benchmark which assesses fine-grained visual abilities to a large extent (e.g., 3-7%), and enhances the performance of MLLMs and vision models on multimodal understanding and segmentation tasks. Extensive evaluation on 29 image classification and retrieval benchmarks confirms that our framework preserves CLIP's strong zero-shot capabilities. The code is available at https://github.com/baaivision/DIVA.