Zero Shot Composed Image Retrieval

📄 arXiv: 2506.06602v1 📥 PDF

作者: Santhosh Kakarla, Gautama Shastry Bulusu Venkata

分类: cs.CV

发布日期: 2025-06-07

备注: 8 pages, 3 figures


💡 一句话要点

通过微调BLIP-2和分析Retrieval-DPO,提升零样本组合图像检索性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 组合图像检索 零样本学习 视觉-语言模型 特征融合 BLIP-2 Q-Former Retrieval-DPO 多模态学习

📋 核心要点

  1. 零样本组合图像检索依赖于独立的视觉-语言编码器,但性能受限于特征融合不足,导致检索精度较低。
  2. 论文提出通过轻量级Q-Former微调BLIP-2,实现视觉和文本特征的有效融合,从而提升检索性能。
  3. 实验表明,该方法在FashionIQ数据集上显著提升了Recall@10和Recall@50指标,优于现有零样本方法。

📝 摘要(中文)

组合图像检索(CIR)允许用户通过对参考图像应用细粒度的文本编辑(例如,“把裙子变成蓝色”或“移除条纹”)来定位目标图像。零样本CIR使用单独的预训练视觉-语言编码器嵌入图像和文本,在FashionIQ基准测试中仅达到20-25%的Recall@10。我们通过使用轻量级Q-Former微调BLIP-2来改进这一点,Q-Former将视觉和文本特征融合到单个嵌入中,从而将Recall@10提高到45.6%(衬衫)、40.1%(连衣裙)和50.4%(上衣-T恤),并将平均Recall@50提高到67.6%。我们还研究了Retrieval-DPO,它使用应用于FAISS挖掘的困难负样本的直接偏好优化损失来微调CLIP的文本编码器。尽管对缩放因子、索引和采样策略进行了广泛的调整,但Retrieval-DPO仅达到0.02%的Recall@10——远低于零样本和提示调整的基线——因为它(i)缺乏联合图像-文本融合,(ii)使用与top-$K$指标不一致的margin目标,(iii)依赖于低质量的负样本,以及(iv)保持视觉和Transformer层冻结。我们的结果表明,有效的基于偏好的CIR需要真正的多模态融合、排序感知目标和精心策划的负样本。

🔬 方法详解

问题定义:组合图像检索(CIR)旨在根据给定的参考图像和文本描述,检索出经过文本描述修改后的目标图像。零样本CIR的挑战在于如何有效地利用预训练的视觉和语言模型,在没有特定CIR训练数据的情况下,实现图像和文本之间的语义对齐和融合。现有方法通常采用独立的视觉和语言编码器,缺乏有效的跨模态交互,导致检索性能不佳。

核心思路:论文的核心思路是通过引入一个轻量级的Q-Former模块,对预训练的BLIP-2模型进行微调,从而实现视觉和文本特征的有效融合。Q-Former作为一个桥梁,将视觉特征和文本特征映射到同一个语义空间,使得模型能够更好地理解文本描述对图像的修改意图。

技术框架:整体框架包括以下几个主要步骤:1) 使用预训练的视觉编码器提取参考图像的视觉特征;2) 使用预训练的文本编码器提取文本描述的文本特征;3) 使用Q-Former模块将视觉特征和文本特征融合,生成一个统一的嵌入向量;4) 使用余弦相似度等度量方法,计算查询图像和候选图像之间的相似度;5) 根据相似度排序,返回检索结果。

关键创新:论文的关键创新在于使用Q-Former模块进行视觉和文本特征的融合。Q-Former是一个轻量级的Transformer结构,可以有效地学习跨模态的语义关系,从而提升检索性能。此外,论文还分析了Retrieval-DPO方法在CIR任务中的局限性,并指出了其不足之处。

关键设计:Q-Former模块的输入是视觉特征和文本特征,输出是一个融合后的嵌入向量。Q-Former的训练目标是最小化查询图像和目标图像之间的距离,同时最大化查询图像和负样本图像之间的距离。论文还对BLIP-2进行了微调,以适应CIR任务的需求。此外,论文还探讨了不同的负样本挖掘策略对Retrieval-DPO性能的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,通过微调BLIP-2和使用Q-Former进行特征融合,Recall@10在衬衫、连衣裙和上衣-T恤类别上分别提升至45.6%、40.1%和50.4%,平均Recall@50提升至67.6%。相比之下,Retrieval-DPO方法的性能远低于零样本和提示调整的基线,表明其不适用于CIR任务。

🎯 应用场景

该研究成果可应用于电商平台的商品检索、图像编辑、智能设计等领域。例如,用户可以通过上传一张衣服的图片,并输入“换成红色”的文本描述,快速检索到红色款式的衣服。该技术还可以用于生成式图像编辑,根据用户的文本指令修改图像内容。

📄 摘要(原文)

Composed image retrieval (CIR) allows a user to locate a target image by applying a fine-grained textual edit (e.g., turn the dress blue'' orremove stripes'') to a reference image. Zero-shot CIR, which embeds the image and the text with separate pretrained vision-language encoders, reaches only 20-25\% Recall@10 on the FashionIQ benchmark. We improve this by fine-tuning BLIP-2 with a lightweight Q-Former that fuses visual and textual features into a single embedding, raising Recall@10 to 45.6\% (shirt), 40.1\% (dress), and 50.4\% (top-tee) and increasing the average Recall@50 to 67.6\%. We also examine Retrieval-DPO, which fine-tunes CLIP's text encoder with a Direct Preference Optimization loss applied to FAISS-mined hard negatives. Despite extensive tuning of the scaling factor, index, and sampling strategy, Retrieval-DPO attains only 0.02\% Recall@10 -- far below zero-shot and prompt-tuned baselines -- because it (i) lacks joint image-text fusion, (ii) uses a margin objective misaligned with top-$K$ metrics, (iii) relies on low-quality negatives, and (iv) keeps the vision and Transformer layers frozen. Our results show that effective preference-based CIR requires genuine multimodal fusion, ranking-aware objectives, and carefully curated negatives.