Zero Shot Composed Image Retrieval

作者: Santhosh Kakarla, Gautama Shastry Bulusu Venkata

分类: cs.CV

发布日期: 2025-06-07

备注: 8 pages, 3 figures

💡 一句话要点

通过微调BLIP-2和分析Retrieval-DPO，提升零样本组合图像检索性能。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 组合图像检索 零样本学习 视觉-语言模型 特征融合 BLIP-2 Q-Former Retrieval-DPO 多模态学习

📋 核心要点

零样本组合图像检索依赖于独立的视觉-语言编码器，但性能受限于特征融合不足，导致检索精度较低。
论文提出通过轻量级Q-Former微调BLIP-2，实现视觉和文本特征的有效融合，从而提升检索性能。
实验表明，该方法在FashionIQ数据集上显著提升了Recall@10和Recall@50指标，优于现有零样本方法。

📝 摘要（中文）

组合图像检索(CIR)允许用户通过对参考图像应用细粒度的文本编辑(例如，“把裙子变成蓝色”或“移除条纹”)来定位目标图像。零样本CIR使用单独的预训练视觉-语言编码器嵌入图像和文本，在FashionIQ基准测试中仅达到20-25%的Recall@10。我们通过使用轻量级Q-Former微调BLIP-2来改进这一点，Q-Former将视觉和文本特征融合到单个嵌入中，从而将Recall@10提高到45.6%(衬衫)、40.1%(连衣裙)和50.4%(上衣-T恤)，并将平均Recall@50提高到67.6%。我们还研究了Retrieval-DPO，它使用应用于FAISS挖掘的困难负样本的直接偏好优化损失来微调CLIP的文本编码器。尽管对缩放因子、索引和采样策略进行了广泛的调整，但Retrieval-DPO仅达到0.02%的Recall@10——远低于零样本和提示调整的基线——因为它(i)缺乏联合图像-文本融合，(ii)使用与top-$K$指标不一致的margin目标，(iii)依赖于低质量的负样本，以及(iv)保持视觉和Transformer层冻结。我们的结果表明，有效的基于偏好的CIR需要真正的多模态融合、排序感知目标和精心策划的负样本。

🔬 方法详解

问题定义：组合图像检索(CIR)旨在根据给定的参考图像和文本描述，检索出经过文本描述修改后的目标图像。零样本CIR的挑战在于如何有效地利用预训练的视觉和语言模型，在没有特定CIR训练数据的情况下，实现图像和文本之间的语义对齐和融合。现有方法通常采用独立的视觉和语言编码器，缺乏有效的跨模态交互，导致检索性能不佳。

核心思路：论文的核心思路是通过引入一个轻量级的Q-Former模块，对预训练的BLIP-2模型进行微调，从而实现视觉和文本特征的有效融合。Q-Former作为一个桥梁，将视觉特征和文本特征映射到同一个语义空间，使得模型能够更好地理解文本描述对图像的修改意图。

技术框架：整体框架包括以下几个主要步骤：1) 使用预训练的视觉编码器提取参考图像的视觉特征；2) 使用预训练的文本编码器提取文本描述的文本特征；3) 使用Q-Former模块将视觉特征和文本特征融合，生成一个统一的嵌入向量；4) 使用余弦相似度等度量方法，计算查询图像和候选图像之间的相似度；5) 根据相似度排序，返回检索结果。

关键创新：论文的关键创新在于使用Q-Former模块进行视觉和文本特征的融合。Q-Former是一个轻量级的Transformer结构，可以有效地学习跨模态的语义关系，从而提升检索性能。此外，论文还分析了Retrieval-DPO方法在CIR任务中的局限性，并指出了其不足之处。

关键设计：Q-Former模块的输入是视觉特征和文本特征，输出是一个融合后的嵌入向量。Q-Former的训练目标是最小化查询图像和目标图像之间的距离，同时最大化查询图像和负样本图像之间的距离。论文还对BLIP-2进行了微调，以适应CIR任务的需求。此外，论文还探讨了不同的负样本挖掘策略对Retrieval-DPO性能的影响。

🖼️ 关键图片

📊 实验亮点

实验结果表明，通过微调BLIP-2和使用Q-Former进行特征融合，Recall@10在衬衫、连衣裙和上衣-T恤类别上分别提升至45.6%、40.1%和50.4%，平均Recall@50提升至67.6%。相比之下，Retrieval-DPO方法的性能远低于零样本和提示调整的基线，表明其不适用于CIR任务。

🎯 应用场景

该研究成果可应用于电商平台的商品检索、图像编辑、智能设计等领域。例如，用户可以通过上传一张衣服的图片，并输入“换成红色”的文本描述，快速检索到红色款式的衣服。该技术还可以用于生成式图像编辑，根据用户的文本指令修改图像内容。

📄 摘要（原文）

Composed image retrieval (CIR) allows a user to locate a target image by applying a fine-grained textual edit (e.g., turn the dress blue'' orremove stripes'') to a reference image. Zero-shot CIR, which embeds the image and the text with separate pretrained vision-language encoders, reaches only 20-25\% Recall@10 on the FashionIQ benchmark. We improve this by fine-tuning BLIP-2 with a lightweight Q-Former that fuses visual and textual features into a single embedding, raising Recall@10 to 45.6\% (shirt), 40.1\% (dress), and 50.4\% (top-tee) and increasing the average Recall@50 to 67.6\%. We also examine Retrieval-DPO, which fine-tunes CLIP's text encoder with a Direct Preference Optimization loss applied to FAISS-mined hard negatives. Despite extensive tuning of the scaling factor, index, and sampling strategy, Retrieval-DPO attains only 0.02\% Recall@10 -- far below zero-shot and prompt-tuned baselines -- because it (i) lacks joint image-text fusion, (ii) uses a margin objective misaligned with top-$K$ metrics, (iii) relies on low-quality negatives, and (iv) keeps the vision and Transformer layers frozen. Our results show that effective preference-based CIR requires genuine multimodal fusion, ranking-aware objectives, and carefully curated negatives.

Zero Shot Composed Image Retrieval

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理