TULIP: Towards Unified Language-Image Pretraining
作者: Zineng Tang, Long Lian, Seun Eisape, XuDong Wang, Roei Herzig, Adam Yala, Alane Suhr, Trevor Darrell, David M. Chan
分类: cs.CV, cs.AI, cs.CL, cs.LG
发布日期: 2025-03-19 (更新: 2025-04-07)
备注: (v2) Clarified fine-tuning process, updated appendix
💡 一句话要点
TULIP:面向统一语言-图像预训练,提升视觉理解能力和跨模态性能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 图像-语言预训练 对比学习 生成式数据增强 图像重建 视觉理解 多模态学习 Transformer
📋 核心要点
- 现有CLIP类模型在视觉理解任务中表现不足,因为它们侧重于语言对齐,忽略了细粒度的视觉特征。
- TULIP通过生成式数据增强、增强的对比学习和重建正则化,学习细粒度视觉特征,同时保持语义对齐。
- TULIP在ImageNet-1K零样本、RxRx1少样本和MMVP视觉-语言任务上均超越SOTA模型,显著提升性能。
📝 摘要(中文)
尽管像CLIP和SigLIP这样的图像-文本对比模型取得了成功,但它们在需要高保真图像理解的视觉中心任务中表现不佳,例如计数、深度估计和细粒度对象识别。这些模型通过执行语言对齐,倾向于优先考虑高层语义而非视觉理解,从而削弱了它们的图像理解能力。另一方面,以视觉为中心的模型擅长处理视觉信息,但在理解语言方面存在困难,限制了它们在语言驱动任务中的灵活性。本文介绍了TULIP,一个开源的、可直接替代现有类CLIP模型的方案。我们的方法利用生成式数据增强、增强的图像-图像和文本-文本对比学习,以及图像/文本重建正则化来学习细粒度的视觉特征,同时保持全局语义对齐。我们的方法扩展到超过10亿个参数,在多个基准测试中优于现有的最先进模型,在ImageNet-1K上建立了新的SOTA零样本性能,在RxRx1上通过线性探测进行少样本分类时,性能提升高达2倍于SigLIP,并改进了视觉-语言模型,在MMVP上获得了比SigLIP高3倍以上的分数。我们的代码/检查点可在https://tulip-berkeley.github.io上找到。
🔬 方法详解
问题定义:现有的图像-文本对比学习模型,如CLIP和SigLIP,虽然在跨模态任务上表现出色,但在纯视觉任务,特别是需要细粒度视觉理解的任务(如计数、深度估计、细粒度识别)上存在不足。这是因为它们为了实现语言对齐,牺牲了对图像细节的关注。
核心思路:TULIP的核心思路是在图像-文本对比学习的基础上,通过引入额外的图像-图像对比学习、文本-文本对比学习以及图像/文本重建正则化,来增强模型对图像细节的理解能力,同时保持其跨模态对齐能力。这样既能保证模型在视觉任务上的性能,又能使其在视觉-语言任务上保持竞争力。
技术框架:TULIP的整体框架类似于CLIP,包含图像编码器和文本编码器。主要的改进在于训练阶段:1) 使用生成式数据增强来扩充训练数据,提高模型的泛化能力;2) 除了图像-文本对比学习外,还引入了图像-图像对比学习和文本-文本对比学习,以增强模型对图像和文本内部结构的理解;3) 添加了图像重建损失和文本重建损失,迫使模型学习更丰富的特征表示。
关键创新:TULIP的关键创新在于其多任务学习策略,它将图像-文本对比学习、图像-图像对比学习、文本-文本对比学习以及图像/文本重建正则化结合在一起,从而在不牺牲跨模态对齐能力的前提下,显著提升了模型的视觉理解能力。这种多任务学习策略使得模型能够同时学习全局语义信息和细粒度视觉特征。
关键设计:TULIP使用了Transformer作为图像和文本编码器。图像编码器采用ViT架构,文本编码器采用标准的Transformer架构。在训练过程中,使用了InfoNCE损失函数进行对比学习,并使用了均方误差损失函数进行图像和文本重建。生成式数据增强使用了多种图像变换技术,如旋转、缩放、裁剪等。模型参数规模扩展到超过10亿,以充分利用大规模数据集的优势。
🖼️ 关键图片
📊 实验亮点
TULIP在多个基准测试中取得了显著的性能提升。在ImageNet-1K零样本分类任务中,TULIP达到了新的SOTA性能。在RxRx1数据集上,通过线性探测进行少样本分类时,TULIP的性能是SigLIP的2倍。在MMVP视觉-语言任务中,TULIP的得分比SigLIP高3倍以上。这些结果表明,TULIP在视觉理解和跨模态任务上都具有显著的优势。
🎯 应用场景
TULIP具有广泛的应用前景,包括但不限于:图像搜索、图像分类、目标检测、图像描述生成、视觉问答等。其增强的视觉理解能力使其在医疗影像分析、遥感图像处理、自动驾驶等领域具有潜在的应用价值。未来,TULIP可以作为视觉-语言预训练模型的基础,进一步发展出更强大的多模态智能系统。
📄 摘要(原文)
Despite the recent success of image-text contrastive models like CLIP and SigLIP, these models often struggle with vision-centric tasks that demand high-fidelity image understanding, such as counting, depth estimation, and fine-grained object recognition. These models, by performing language alignment, tend to prioritize high-level semantics over visual understanding, weakening their image understanding. On the other hand, vision-focused models are great at processing visual information but struggle to understand language, limiting their flexibility for language-driven tasks. In this work, we introduce TULIP, an open-source, drop-in replacement for existing CLIP-like models. Our method leverages generative data augmentation, enhanced image-image and text-text contrastive learning, and image/text reconstruction regularization to learn fine-grained visual features while preserving global semantic alignment. Our approach, scaling to over 1B parameters, outperforms existing state-of-the-art (SOTA) models across multiple benchmarks, establishing a new SOTA zero-shot performance on ImageNet-1K, delivering up to a $2\times$ enhancement over SigLIP on RxRx1 in linear probing for few-shot classification, and improving vision-language models, achieving over $3\times$ higher scores than SigLIP on MMVP. Our code/checkpoints are available at https://tulip-berkeley.github.io