Elevating All Zero-Shot Sketch-Based Image Retrieval Through Multimodal Prompt Learning

📄 arXiv: 2407.04207v2 📥 PDF

作者: Mainak Singha, Ankit Jha, Divyam Gupta, Pranav Singla, Biplab Banerjee

分类: cs.CV

发布日期: 2024-07-05 (更新: 2024-07-23)

备注: Accepted in ECCV 2024

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出SpLIP,通过多模态Prompt学习提升零样本草图图像检索性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 草图图像检索 零样本学习 多模态学习 Prompt学习 CLIP 跨模态对齐 特征表示

📋 核心要点

  1. 现有基于CLIP的SBIR方法主要采用单模态prompt处理,未能充分利用CLIP的视觉和文本能力,导致性能受限。
  2. SpLIP提出双向prompt共享策略,促进CLIP视觉和文本编码器之间的知识互换,缩小草图和照片嵌入之间的语义差距。
  3. SpLIP还引入自适应margin生成和条件跨模态拼图任务,进一步优化嵌入空间,并在多个SBIR基准上取得了显著提升。

📝 摘要(中文)

本文旨在解决各种草图图像检索(SBIR)场景中的挑战,包括零样本SBIR、广义零样本SBIR和细粒度零样本SBIR,利用视觉-语言基础模型CLIP。现有方法主要采用单模态prompt处理,未能充分利用CLIP集成的视觉和文本能力。为此,我们提出了一种新颖的多模态prompt学习方案SpLIP,它能有效地与冻结的CLIP骨干网络协同工作。SpLIP采用双向prompt共享策略,促进CLIP视觉和文本编码器之间的知识互换,从而形成更具凝聚力和协同作用的prompt处理机制,显著缩小草图和照片嵌入之间的语义差距。此外,我们还提出了两种创新策略来进一步优化嵌入空间:一种是自适应margin生成,用于草图-照片三元组损失,由CLIP的类别文本嵌入调节;另一种是条件跨模态拼图任务,旨在通过隐式建模草图的可行patch排列来增强细粒度草图-照片对齐。在多个基准数据集上的实验结果表明,SpLIP在所有三种SBIR场景中均表现出卓越的性能。

🔬 方法详解

问题定义:论文旨在解决零样本草图图像检索(Zero-Shot SBIR)问题,包括普通零样本、广义零样本和细粒度零样本三种场景。现有方法主要依赖单模态的Prompt学习,未能充分利用CLIP模型中视觉和文本编码器的协同能力,导致草图和图像的特征表示存在较大的语义鸿沟,泛化能力不足。

核心思路:论文的核心思路是利用CLIP的视觉和文本编码器,通过多模态Prompt学习,实现草图和图像特征的有效对齐。通过双向Prompt共享,让视觉和文本编码器相互学习,弥合模态差异,从而提升检索性能。此外,还引入了自适应Margin生成和条件跨模态拼图任务,进一步优化特征空间。

技术框架:SpLIP的整体框架基于预训练的CLIP模型,并冻结CLIP的参数。主要包含以下几个模块:1) 多模态Prompt学习模块:通过可学习的视觉和文本Prompt,引导CLIP提取更有效的草图和图像特征。2) 双向Prompt共享模块:视觉Prompt和文本Prompt之间进行知识交换,促进模态融合。3) 自适应Margin生成模块:根据CLIP的类别文本嵌入,动态调整Triplet Loss的Margin,优化嵌入空间。4) 条件跨模态拼图模块:通过打乱图像Patch的顺序,并让模型预测正确的顺序,增强模型对细粒度特征的理解。

关键创新:论文的关键创新在于多模态Prompt学习和双向Prompt共享机制。与现有方法不同,SpLIP不是独立地处理视觉和文本Prompt,而是让它们相互学习,从而更好地利用CLIP的跨模态知识。此外,条件跨模态拼图任务也是一个创新点,它通过自监督学习的方式,增强了模型对草图和图像细粒度特征的理解。

关键设计:1) 双向Prompt共享:通过线性变换将视觉Prompt映射到文本Prompt空间,反之亦然,实现知识交换。2) 自适应Margin生成:Margin的大小由CLIP的类别文本嵌入的相似度决定,相似度越高,Margin越小。3) 条件跨模态拼图:将图像分成多个Patch,随机打乱顺序,然后让模型预测正确的顺序。损失函数采用交叉熵损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SpLIP在多个SBIR基准数据集上取得了显著的性能提升。例如,在SketchyCOCO数据集上,SpLIP在零样本SBIR任务中取得了state-of-the-art的结果,相比于现有方法,Recall@1指标提升了超过5%。在细粒度SBIR任务中,SpLIP也取得了显著的性能提升。

🎯 应用场景

该研究成果可应用于图像检索、草图识别、计算机辅助设计等领域。例如,用户可以通过绘制草图快速检索到相关的图像或产品。此外,该方法还可以用于增强现实和虚拟现实应用,例如,根据用户的草图生成三维模型。

📄 摘要(原文)

We address the challenges inherent in sketch-based image retrieval (SBIR) across various settings, including zero-shot SBIR, generalized zero-shot SBIR, and fine-grained zero-shot SBIR, by leveraging the vision-language foundation model CLIP. While recent endeavors have employed CLIP to enhance SBIR, these approaches predominantly follow uni-modal prompt processing and overlook to exploit CLIP's integrated visual and textual capabilities fully. To bridge this gap, we introduce SpLIP, a novel multi-modal prompt learning scheme designed to operate effectively with frozen CLIP backbones. We diverge from existing multi-modal prompting methods that treat visual and textual prompts independently or integrate them in a limited fashion, leading to suboptimal generalization. SpLIP implements a bi-directional prompt-sharing strategy that enables mutual knowledge exchange between CLIP's visual and textual encoders, fostering a more cohesive and synergistic prompt processing mechanism that significantly reduces the semantic gap between the sketch and photo embeddings. In addition to pioneering multi-modal prompt learning, we propose two innovative strategies for further refining the embedding space. The first is an adaptive margin generation for the sketch-photo triplet loss, regulated by CLIP's class textual embeddings. The second introduces a novel task, termed conditional cross-modal jigsaw, aimed at enhancing fine-grained sketch-photo alignment by implicitly modeling sketches' viable patch arrangement using knowledge of unshuffled photos. Our comprehensive experimental evaluations across multiple benchmarks demonstrate the superior performance of SpLIP in all three SBIR scenarios. Project page: https://mainaksingha01.github.io/SpLIP/ .