ReCALL: Recalibrating Capability Degradation for MLLM-based Composed Image Retrieval
作者: Tianyu Yang, ChenWei He, Xiangzhao Hao, Tianyue Wang, Jiarui Guo, Haiyun Guo, Leigang Qu, Jinqiao Wang, Tat-Seng Chua
分类: cs.CV
发布日期: 2026-02-02
💡 一句话要点
提出ReCALL框架,解决MLLM用于组合图像检索时的能力退化问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 组合图像检索 多模态学习 大型语言模型 能力退化 对比学习
📋 核心要点
- 现有方法将生成式MLLM直接用于判别式检索,忽略了由此产生的范式冲突和能力退化问题。
- ReCALL框架通过诊断认知盲点、生成修正指令和细化检索器三个阶段,重新校准MLLM的能力。
- 在CIRR和FashionIQ数据集上的实验表明,ReCALL能够有效提升组合图像检索的性能,达到SOTA水平。
📝 摘要(中文)
组合图像检索(CIR)旨在根据参考图像和修改文本的混合查询检索目标图像。早期的双塔视觉-语言模型(VLM)难以进行此任务所需的跨模态组合推理。最近,将生成式多模态大型语言模型(MLLM)适配于检索提供了一个有希望的方向。然而,我们发现这种适配策略忽略了一个根本问题:将生成式MLLM适配为单嵌入判别式检索器会引发范式冲突,导致能力退化——检索适配后原生细粒度推理能力的恶化。为了解决这个挑战,我们提出了ReCALL(Recalibrating Capability Degradation),一个模型无关的框架,遵循诊断-生成-细化流程:首先,我们通过自引导信息实例挖掘诊断检索器的认知盲点。接下来,我们通过CoT提示基础MLLM生成修正指令和三元组,并使用基于VQA的一致性过滤进行质量控制。最后,我们通过在这些三元组上进行持续训练,并采用分组对比方案来细化检索器,从而内化细粒度的视觉-语义区分,并将检索器的判别嵌入空间与MLLM内部的内在组合推理对齐。在CIRR和FashionIQ上的大量实验表明,ReCALL始终如一地重新校准退化的能力,并实现了最先进的性能。代码即将发布。
🔬 方法详解
问题定义:论文旨在解决将生成式多模态大型语言模型(MLLM)直接应用于组合图像检索(CIR)时出现的能力退化问题。现有方法简单地将MLLM适配为判别式检索器,忽略了生成式模型和判别式模型之间的范式冲突,导致MLLM原有的细粒度推理能力下降,无法有效处理复杂的组合查询。
核心思路:ReCALL的核心思路是通过一个“诊断-生成-细化”的流程,显式地识别并纠正MLLM在检索任务中的认知盲点,从而重新校准其能力。该方法旨在弥合生成式MLLM和判别式检索器之间的差距,使MLLM能够更好地适应CIR任务。
技术框架:ReCALL框架包含三个主要阶段: 1. 诊断阶段:通过自引导信息实例挖掘,识别检索器的认知盲点,即检索器容易出错的样本。 2. 生成阶段:利用CoT(Chain-of-Thought)提示基础MLLM,针对诊断阶段识别出的盲点生成修正指令和三元组数据。同时,使用基于VQA(Visual Question Answering)的一致性过滤来保证生成数据的质量。 3. 细化阶段:通过在生成的三元组数据上进行持续训练,并采用分组对比方案,来细化检索器,使其能够内化细粒度的视觉-语义区分,并将检索器的判别嵌入空间与MLLM内部的组合推理能力对齐。
关键创新:ReCALL的关键创新在于其模型无关性以及“诊断-生成-细化”的流程。该框架不依赖于特定的MLLM架构,可以应用于各种基于MLLM的检索器。通过显式地诊断和纠正认知盲点,ReCALL能够更有效地提升MLLM在CIR任务中的性能。与现有方法相比,ReCALL更加关注MLLM的能力退化问题,并提出了针对性的解决方案。
关键设计: * 自引导信息实例挖掘:用于识别检索器的认知盲点,具体实现细节未知。 * CoT提示:利用思维链提示,引导MLLM生成更准确、更详细的修正指令和三元组数据。 * VQA一致性过滤:使用视觉问答模型来验证生成数据的质量,确保生成的数据与图像内容一致。 * 分组对比学习:在训练过程中,将相似的样本分为一组,并使用对比损失来拉近相似样本之间的距离,推远不相似样本之间的距离。具体的分组策略和对比损失函数未知。
🖼️ 关键图片
📊 实验亮点
ReCALL在CIRR和FashionIQ数据集上取得了SOTA性能,证明了其有效性。具体性能数据和提升幅度需要在论文发布后才能得知。该框架通过重新校准MLLM的能力,显著提升了组合图像检索的准确性,验证了其解决能力退化问题的有效性。
🎯 应用场景
ReCALL框架可应用于电商、图像搜索、时尚搭配等领域。例如,在电商平台上,用户可以通过上传一张参考图片和一段修改描述(如“换成红色”)来检索目标商品。该研究有助于提升多模态信息检索的准确性和效率,改善用户体验,并为相关产业带来商业价值。未来,该技术有望扩展到视频检索、跨模态对话等更广泛的应用场景。
📄 摘要(原文)
Composed Image Retrieval (CIR) aims to retrieve target images based on a hybrid query comprising a reference image and a modification text. Early dual-tower Vision-Language Models (VLMs) struggle with cross-modality compositional reasoning required for this task. Recently, adapting generative Multimodal Large Language Models (MLLMs) for retrieval offers a promising direction. However, we identify that this adaptation strategy overlooks a fundamental issue: adapting a generative MLLM into a single-embedding discriminative retriever triggers a paradigm conflict, which leads to Capability Degradation - the deterioration of native fine-grained reasoning after retrieval adaptation. To address this challenge, we propose ReCALL (Recalibrating Capability Degradation), a model-agnostic framework that follows a diagnose-generate-refine pipeline: Firstly, we diagnose cognitive blind spots of the retriever via self-guided informative instance mining. Next, we generate corrective instructions and triplets by CoT prompting the foundation MLLM and conduct quality control with VQA-based consistency filtering. Finally, we refine the retriever through continual training on these triplets with a grouped contrastive scheme, thereby internalizing fine-grained visual-semantic distinctions and realigning the discriminative embedding space of retriever with intrinsic compositional reasoning within the MLLM. Extensive experiments on CIRR and FashionIQ show that ReCALL consistently recalibrates degraded capabilities and achieves state-of-the-art performance. Code will be released soon.