SQUARE: Semantic Query-Augmented Fusion and Efficient Batch Reranking for Training-free Zero-Shot Composed Image Retrieval
作者: Ren-Di Wu, Yu-Yen Lin, Huei-Fang Yang
分类: cs.CV, cs.IR
发布日期: 2025-09-30
备注: 20 pages, 9 figures
💡 一句话要点
提出SQUARE框架,通过语义增强和高效重排序实现免训练零样本组合图像检索
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 组合图像检索 零样本学习 多模态学习 大型语言模型 语义增强
📋 核心要点
- 零样本组合图像检索旨在根据参考图像和文本修改检索目标图像,现有方法难以准确捕捉用户意图。
- SQUARE框架利用MLLM生成目标图像的描述,增强视觉-语言模型的查询嵌入,从而提供更丰富的语义指导。
- SQUARE在标准CIR基准上表现出色,即使使用轻量级预训练模型也能保持高性能,具有良好的应用潜力。
📝 摘要(中文)
本文提出SQUARE,一种新颖的两阶段免训练框架,利用多模态大型语言模型(MLLM)来增强零样本组合图像检索(ZS-CIR)。在语义查询增强融合(SQAF)阶段,我们使用MLLM生成的关于目标图像的描述来丰富从CLIP等视觉-语言模型(VLM)导出的查询嵌入。这些描述提供高层次的语义指导,使查询能够更好地捕捉用户的意图并提高全局检索质量。在高效批次重排序(EBR)阶段,将排名靠前的候选图像以带有视觉标记的图像网格形式呈现给MLLM,MLLM对所有候选图像执行联合视觉-语义推理。我们的重排序策略在单次传递中运行,并产生更准确的排名。实验表明,SQUARE以其简洁性和有效性,在四个标准CIR基准上实现了强大的性能。值得注意的是,即使使用轻量级预训练模型,它也能保持高性能,证明了其潜在的适用性。
🔬 方法详解
问题定义:组合图像检索(CIR)旨在根据给定的参考图像和文本描述,检索出既包含参考图像的视觉内容,又符合文本描述修改的图像。现有的免训练零样本CIR(ZS-CIR)方法在准确捕捉用户意图方面面临挑战,导致检索结果不尽如人意。
核心思路:SQUARE的核心思路是利用多模态大型语言模型(MLLM)的强大语义理解和生成能力,来增强视觉-语言模型(VLM)的查询表示。通过让MLLM生成目标图像的描述,为查询提供更丰富的语义信息,从而更准确地捕捉用户的意图。此外,通过高效的批次重排序,进一步提升检索结果的准确性。
技术框架:SQUARE框架包含两个主要阶段:语义查询增强融合(SQAF)和高效批次重排序(EBR)。在SQAF阶段,首先使用VLM(如CLIP)提取参考图像和文本描述的嵌入向量,然后利用MLLM生成目标图像的描述。接着,将MLLM生成的描述信息融合到VLM的查询嵌入中,得到增强的查询表示。在EBR阶段,将SQAF阶段检索到的Top-K个候选图像以图像网格的形式呈现给MLLM,MLLM对这些候选图像进行联合视觉-语义推理,并根据推理结果对候选图像进行重排序。
关键创新:SQUARE的关键创新在于利用MLLM生成目标图像的描述,并将其融合到VLM的查询嵌入中。这种方法能够有效地利用MLLM的语义理解能力,为查询提供更丰富的语义信息,从而更准确地捕捉用户的意图。此外,EBR阶段的联合视觉-语义推理能够更好地利用候选图像之间的关系,进一步提升检索结果的准确性。与现有方法相比,SQUARE无需任何任务特定的训练或标注数据,具有更强的通用性和可扩展性。
关键设计:在SQAF阶段,如何有效地融合MLLM生成的描述信息到VLM的查询嵌入是一个关键设计。论文中具体采用何种融合方式(例如,拼接、加权平均等)以及如何确定融合权重等细节未知。在EBR阶段,如何设计图像网格的布局以及如何指导MLLM进行有效的视觉-语义推理也是关键。论文中关于MLLM的具体prompt设计以及推理过程的细节未知。
🖼️ 关键图片
📊 实验亮点
SQUARE在四个标准CIR基准上取得了显著的性能提升,证明了其有效性。即使使用轻量级预训练模型,SQUARE也能保持高性能,表明其具有良好的泛化能力和实用价值。具体的性能数据和对比基线未知。
🎯 应用场景
SQUARE框架可应用于电商平台的商品检索、图像编辑工具的智能推荐、以及搜索引擎的图像搜索等领域。通过结合图像和文本描述,用户可以更精确地找到所需的目标图像,提升用户体验。该研究的免训练特性使其易于部署和应用,具有广泛的应用前景。
📄 摘要(原文)
Composed Image Retrieval (CIR) aims to retrieve target images that preserve the visual content of a reference image while incorporating user-specified textual modifications. Training-free zero-shot CIR (ZS-CIR) approaches, which require no task-specific training or labeled data, are highly desirable, yet accurately capturing user intent remains challenging. In this paper, we present SQUARE, a novel two-stage training-free framework that leverages Multimodal Large Language Models (MLLMs) to enhance ZS-CIR. In the Semantic Query-Augmented Fusion (SQAF) stage, we enrich the query embedding derived from a vision-language model (VLM) such as CLIP with MLLM-generated captions of the target image. These captions provide high-level semantic guidance, enabling the query to better capture the user's intent and improve global retrieval quality. In the Efficient Batch Reranking (EBR) stage, top-ranked candidates are presented as an image grid with visual marks to the MLLM, which performs joint visual-semantic reasoning across all candidates. Our reranking strategy operates in a single pass and yields more accurate rankings. Experiments show that SQUARE, with its simplicity and effectiveness, delivers strong performance on four standard CIR benchmarks. Notably, it maintains high performance even with lightweight pre-trained, demonstrating its potential applicability.