MCoT-RE: Multi-Faceted Chain-of-Thought and Re-Ranking for Training-Free Zero-Shot Composed Image Retrieval
作者: Jeong-Woo Park, Seong-Whan Lee
分类: cs.CV
发布日期: 2025-07-17
备注: 6 pages, 4 figures, 2025 IEEE International Conference on Systems, Man, and Cybernetics
💡 一句话要点
提出MCoT-RE框架,通过多方面CoT与重排序解决免训练零样本组合图像检索问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 组合图像检索 零样本学习 多模态学习 思维链 重排序
📋 核心要点
- 现有零样本组合图像检索方法未能有效融合参考图像的视觉上下文信息,导致检索精度受限。
- MCoT-RE框架通过多方面思维链引导MLLM生成侧重修改和融合上下文信息的双重标题,实现更精准的检索。
- 实验表明,MCoT-RE在FashionIQ和CIRR数据集上显著提升了检索性能,优于现有免训练方法。
📝 摘要(中文)
组合图像检索(CIR)的任务是从图库中检索目标图像,检索条件是参考图像和修改文本组成的组合查询。各种CIR方法中,基于预训练模型的免训练零样本方法具有成本效益,但仍面临显著局限。例如,顺序VLM-LLM管道独立处理每个模态,导致信息丢失并限制跨模态交互。相比之下,基于多模态大型语言模型(MLLM)的方法通常只关注文本指示的修改,而未充分利用参考图像的上下文视觉信息。为解决这些问题,我们提出多方面思维链与重排序(MCoT-RE),一种免训练零样本CIR框架。MCoT-RE利用多方面思维链引导MLLM平衡显式修改和上下文视觉线索,生成两个不同的标题:一个侧重于修改,另一个整合全面的视觉-文本上下文。第一个标题用于过滤候选图像。随后,我们结合这两个标题和参考图像进行多粒度重排序。这种两阶段方法通过与文本修改指令对齐并保留参考图像的视觉上下文,促进精确检索。通过大量实验,MCoT-RE在免训练方法中实现了最先进的结果,在FashionIQ上Recall@10提高了6.24%,在CIRR上Recall@1提高了8.58%。
🔬 方法详解
问题定义:组合图像检索(CIR)旨在根据参考图像和修改文本检索目标图像。现有免训练零样本方法,特别是基于VLM-LLM流水线的方法,容易造成信息损失,限制跨模态交互。而基于MLLM的方法往往过度关注文本修改,忽略了参考图像的视觉上下文信息,导致检索精度下降。
核心思路:MCoT-RE的核心思路是利用多方面思维链(Multi-faceted Chain-of-Thought)引导MLLM同时关注文本修改指令和参考图像的视觉上下文。通过生成两个不同的标题,一个侧重于文本修改,另一个融合视觉-文本上下文,从而更全面地理解组合查询的意图。这种双重标题策略旨在平衡显式修改和隐式视觉信息,提高检索的准确性。
技术框架:MCoT-RE框架包含两个主要阶段:候选图像过滤和多粒度重排序。首先,利用多方面思维链生成两个标题。然后,使用侧重修改的标题过滤候选图像,缩小检索范围。接着,结合两个标题和参考图像,进行多粒度重排序,对候选图像进行精细排序,最终得到检索结果。
关键创新:MCoT-RE的关键创新在于多方面思维链的应用,它引导MLLM从不同角度理解组合查询,生成更具信息量的标题。与传统方法只关注文本修改或简单融合视觉-文本信息不同,MCoT-RE通过双重标题策略,实现了对显式修改和隐式视觉信息的有效平衡。
关键设计:MCoT-RE的关键设计包括:1) 多方面思维链的提示工程,用于引导MLLM生成不同侧重的标题;2) 基于修改标题的候选图像过滤策略,用于缩小检索范围;3) 多粒度重排序方法,用于对候选图像进行精细排序。具体的参数设置和网络结构细节在论文中未详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
MCoT-RE在FashionIQ数据集上实现了Recall@10提升6.24%,在CIRR数据集上实现了Recall@1提升8.58%,显著优于现有的免训练零样本方法。这些结果表明,MCoT-RE框架能够有效利用视觉上下文信息,提高组合图像检索的准确性。
🎯 应用场景
MCoT-RE框架可应用于电商平台的图像搜索、时尚搭配推荐、以及其他需要根据图像和文本描述进行检索的场景。该研究的实际价值在于提供了一种高效且无需训练的组合图像检索方法,降低了部署成本,并提升了检索精度。未来,该方法有望扩展到更复杂的跨模态检索任务中。
📄 摘要(原文)
Composed Image Retrieval (CIR) is the task of retrieving a target image from a gallery using a composed query consisting of a reference image and a modification text. Among various CIR approaches, training-free zero-shot methods based on pre-trained models are cost-effective but still face notable limitations. For example, sequential VLM-LLM pipelines process each modality independently, which often results in information loss and limits cross-modal interaction. In contrast, methods based on multimodal large language models (MLLMs) often focus exclusively on applying changes indicated by the text, without fully utilizing the contextual visual information from the reference image. To address these issues, we propose multi-faceted Chain-of-Thought with re-ranking (MCoT-RE), a training-free zero-shot CIR framework. MCoT-RE utilizes multi-faceted Chain-of-Thought to guide the MLLM to balance explicit modifications and contextual visual cues, generating two distinct captions: one focused on modification and the other integrating comprehensive visual-textual context. The first caption is used to filter candidate images. Subsequently, we combine these two captions and the reference image to perform multi-grained re-ranking. This two-stage approach facilitates precise retrieval by aligning with the textual modification instructions while preserving the visual context of the reference image. Through extensive experiments, MCoT-RE achieves state-of-the-art results among training-free methods, yielding improvements of up to 6.24% in Recall@10 on FashionIQ and 8.58% in Recall@1 on CIRR.