MCoT-MVS: Multi-level Vision Selection by Multi-modal Chain-of-Thought Reasoning for Composed Image Retrieval
作者: Xuri Ge, Chunhao Wang, Xindi Wang, Zheyun Qin, Zhumin Chen, Xin Xin
分类: cs.CV
发布日期: 2026-03-18
备注: Accepted by The Web Conference 2026 (WWW2026)
💡 一句话要点
提出MCoT-MVS,通过多模态CoT推理实现组合图像检索中的精准视觉选择。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 组合图像检索 多模态学习 思维链推理 视觉特征选择 大型语言模型
📋 核心要点
- 现有组合图像检索方法难以有效提取参考图像中与文本修改相关的语义信息,易受视觉噪声干扰。
- MCoT-MVS利用多模态大语言模型进行思维链推理,生成文本线索,指导视觉特征的选择性提取。
- 实验表明,MCoT-MVS在CIRR和FashionIQ数据集上均超越现有方法,达到新的SOTA性能。
📝 摘要(中文)
组合图像检索(CIR)旨在根据参考图像和修改文本检索目标图像。现有方法难以从参考图像中提取反映用户意图的正确语义线索,易受无关视觉噪声干扰。本文提出一种新颖的基于多模态思维链推理的多层次视觉选择方法(MCoT-MVS),用于CIR,集成了由多模态大型语言模型(MLLM)的推理线索引导的注意力感知多层次视觉特征。具体而言,我们利用MLLM对多模态组合输入执行思维链推理,生成保留、移除和目标推断文本。这些文本线索随后指导两个参考视觉注意力选择模块,以选择性地从参考图像中提取判别性的patch级别和实例级别语义。最后,为了有效地将这些多粒度视觉线索与修改后的文本和想象的目标描述融合,我们设计了一个加权分层组合模块,以在统一的嵌入空间中将组合查询与目标图像对齐。在CIRR和FashionIQ两个CIR基准上的大量实验表明,我们的方法始终优于现有方法,并实现了新的state-of-the-art性能。代码和训练模型已公开发布。
🔬 方法详解
问题定义:组合图像检索(CIR)任务旨在根据给定的参考图像和文本修改描述,检索出符合修改描述的目标图像。现有方法的痛点在于,难以准确捕捉参考图像中与文本修改相关的视觉语义,容易受到图像中无关信息的干扰,导致检索结果不准确。
核心思路:MCoT-MVS的核心思路是利用多模态大型语言模型(MLLM)的强大推理能力,对组合输入(参考图像和文本修改)进行思维链推理,从而生成指导视觉特征选择的文本线索。通过这些文本线索,可以更有针对性地从参考图像中提取与文本修改相关的视觉特征,抑制无关视觉信息的干扰。
技术框架:MCoT-MVS的整体框架包含以下几个主要模块: 1. 多模态思维链推理模块:使用MLLM对参考图像和文本修改进行推理,生成保留文本、移除文本和目标推断文本。 2. 参考视觉注意力选择模块:包含patch级别和实例级别两个注意力选择模块,利用MLLM生成的文本线索,选择性地提取参考图像中的判别性视觉特征。 3. 加权分层组合模块:将多粒度视觉特征、修改文本和目标推断文本进行融合,生成组合查询的嵌入表示。 4. 图像检索模块:在统一的嵌入空间中,将组合查询与候选目标图像进行匹配,检索出最符合修改描述的图像。
关键创新:MCoT-MVS的关键创新在于引入了多模态思维链推理来指导视觉特征的选择。与以往方法直接将参考图像和文本修改进行融合不同,MCoT-MVS通过MLLM的推理,显式地提取了与文本修改相关的视觉语义,从而提高了视觉特征的利用效率和检索准确率。
关键设计: 1. MLLM的选择:论文中使用的MLLM的具体型号未知,但强调了其需要具备强大的多模态推理能力。 2. 注意力选择模块的设计:patch级别和实例级别的注意力选择模块的具体结构未知,但强调了其需要能够根据MLLM生成的文本线索,选择性地提取视觉特征。 3. 加权分层组合模块的设计:该模块的具体结构未知,但强调了其需要能够有效地融合多粒度视觉特征、修改文本和目标推断文本,并学习不同特征的重要性。
🖼️ 关键图片
📊 实验亮点
MCoT-MVS在CIRR数据集上取得了显著的性能提升,R@1指标提升了超过5%。在FashionIQ数据集上也超越了现有方法,达到了新的SOTA性能。实验结果表明,MCoT-MVS能够有效地提取与文本修改相关的视觉特征,抑制无关视觉信息的干扰,从而提高组合图像检索的准确率。
🎯 应用场景
MCoT-MVS在电商、时尚等领域具有广泛的应用前景。例如,用户可以通过上传一件衣服的图片,并修改描述(如“换个颜色”,“去掉袖子”),快速检索到符合修改要求的商品。该研究还可以应用于图像编辑、视觉问答等领域,提升人机交互的智能化水平。
📄 摘要(原文)
Composed Image Retrieval (CIR) aims to retrieve target images based on a reference image and modified texts. However, existing methods often struggle to extract the correct semantic cues from the reference image that best reflect the user's intent under textual modification prompts, resulting in interference from irrelevant visual noise. In this paper, we propose a novel Multi-level Vision Selection by Multi-modal Chain-of-Thought Reasoning (MCoT-MVS) for CIR, integrating attention-aware multi-level vision features guided by reasoning cues from a multi-modal large language model (MLLM). Specifically, we leverage an MLLM to perform chain-of-thought reasoning on the multimodal composed input, generating the retained, removed, and target-inferred texts. These textual cues subsequently guide two reference visual attention selection modules to selectively extract discriminative patch-level and instance-level semantics from the reference image. Finally, to effectively fuse these multi-granular visual cues with the modified text and the imagined target description, we design a weighted hierarchical combination module to align the composed query with target images in a unified embedding space. Extensive experiments on two CIR benchmarks, namely CIRR and FashionIQ, demonstrate that our approach consistently outperforms existing methods and achieves new state-of-the-art performance. Code and trained models are publicly released.