SCOT: Self-Supervised Contrastive Pretraining For Zero-Shot Compositional Retrieval
作者: Bhavin Jawade, Joao V. B. Soares, Kapil Thadani, Deen Dayal Mohan, Amir Erfan Eshratifar, Benjamin Culpepper, Paloma de Juan, Srirangaraj Setlur, Venu Govindaraju
分类: cs.CV, cs.AI
发布日期: 2025-01-12
备注: Paper accepted at WACV 2025 in round 1
💡 一句话要点
SCOT:用于零样本组合检索的自监督对比预训练方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 组合图像检索 自监督学习 对比学习 零样本学习 视觉-语言模型
📋 核心要点
- 现有组合图像检索方法依赖大量标注数据,标注成本高昂,且模型泛化能力受限。
- SCOT利用大型语言模型的生成能力,结合图像-文本对数据进行自监督对比预训练,无需标注三元组。
- 实验表明,SCOT在零样本组合检索任务上超越了现有零样本方法,甚至优于部分有监督方法。
📝 摘要(中文)
组合图像检索(CIR)是一项多模态学习任务,模型将查询图像与用户提供的文本修改相结合,以检索目标图像。CIR在产品检索(电子商务)和网络搜索等各种领域都有应用。现有方法主要集中在完全监督学习上,模型在FashionIQ和CIRR等标记三元组数据集上进行训练。这带来了两个重大挑战:(i)策划此类三元组数据集非常耗费人力;(ii)模型缺乏对未见对象和领域的泛化能力。本文提出SCOT(自监督组合训练),一种新颖的零样本组合预训练策略,它将现有的大型图像-文本对数据集与大型语言模型的生成能力相结合,以对比方式训练嵌入组合网络。具体而言,我们表明,来自大规模对比预训练视觉-语言模型的文本嵌入可以在组合预训练期间用作代理目标监督,从而取代目标图像嵌入。在零样本设置中,这种策略超越了SOTA零样本组合检索方法以及标准基准(如FashionIQ和CIRR)上的许多完全监督方法。
🔬 方法详解
问题定义:组合图像检索(CIR)旨在根据给定的查询图像和文本修改,检索出符合修改描述的目标图像。现有方法主要依赖于在人工标注的三元组数据集(查询图像、文本修改、目标图像)上进行监督学习。这种方式存在两个主要痛点:一是标注三元组数据成本高昂;二是模型在训练数据之外的对象和领域泛化能力较差。
核心思路:SCOT的核心思路是利用大规模预训练的视觉-语言模型(如CLIP)的文本嵌入能力,将其作为目标图像的代理监督信号,从而实现自监督的组合检索模型训练。通过这种方式,模型可以在无需人工标注三元组数据的情况下,学习到图像和文本修改之间的组合关系。
技术框架:SCOT的整体框架包含以下几个主要模块:1) 图像编码器:用于提取查询图像和目标图像的视觉特征。2) 文本编码器:用于提取文本修改的文本特征。3) 组合模块:将查询图像的视觉特征和文本修改的文本特征进行组合,生成组合后的特征表示。4) 对比学习模块:利用对比学习损失,使得组合后的特征表示与目标图像的视觉特征尽可能接近。在预训练阶段,目标图像的视觉特征由预训练视觉-语言模型的文本嵌入代理。
关键创新:SCOT最重要的技术创新点在于利用预训练视觉-语言模型的文本嵌入作为代理监督信号,从而实现了自监督的组合检索模型训练。这避免了对人工标注三元组数据的依赖,大大降低了训练成本,并提高了模型的泛化能力。与现有方法相比,SCOT无需任何人工标注的组合数据即可进行预训练。
关键设计:SCOT的关键设计包括:1) 使用预训练的CLIP模型作为文本编码器,以获得高质量的文本嵌入。2) 使用对比学习损失(如InfoNCE)来训练组合模块,使得组合后的特征表示与目标图像的视觉特征尽可能接近。3) 在预训练阶段,使用大规模的图像-文本对数据集(如LAION-400M)进行训练。
🖼️ 关键图片
📊 实验亮点
SCOT在FashionIQ和CIRR等标准组合图像检索基准数据集上进行了评估。实验结果表明,SCOT在零样本设置下显著优于现有的零样本方法,并且在某些情况下甚至超过了有监督方法。例如,在FashionIQ数据集上,SCOT的Recall@1指标比SOTA零样本方法提高了5%以上,证明了其有效性。
🎯 应用场景
SCOT在电子商务、网络搜索等领域具有广泛的应用前景。例如,在电商平台上,用户可以通过上传一张商品图片并添加文本修改(如“红色”,“长袖”)来检索目标商品。该技术还可以应用于图像编辑、图像生成等领域,为用户提供更加灵活和个性化的图像处理服务。未来,SCOT有望进一步扩展到视频检索、3D模型检索等领域。
📄 摘要(原文)
Compositional image retrieval (CIR) is a multimodal learning task where a model combines a query image with a user-provided text modification to retrieve a target image. CIR finds applications in a variety of domains including product retrieval (e-commerce) and web search. Existing methods primarily focus on fully-supervised learning, wherein models are trained on datasets of labeled triplets such as FashionIQ and CIRR. This poses two significant challenges: (i) curating such triplet datasets is labor intensive; and (ii) models lack generalization to unseen objects and domains. In this work, we propose SCOT (Self-supervised COmpositional Training), a novel zero-shot compositional pretraining strategy that combines existing large image-text pair datasets with the generative capabilities of large language models to contrastively train an embedding composition network. Specifically, we show that the text embedding from a large-scale contrastively-pretrained vision-language model can be utilized as proxy target supervision during compositional pretraining, replacing the target image embedding. In zero-shot settings, this strategy surpasses SOTA zero-shot compositional retrieval methods as well as many fully-supervised methods on standard benchmarks such as FashionIQ and CIRR.