Multimodal Reasoning Agent for Zero-Shot Composed Image Retrieval

作者: Rong-Cheng Tu, Wenhao Sun, Hanzhe You, Yingjie Wang, Jiaxing Huang, Li Shen, Dacheng Tao

分类: cs.CV, cs.IR

发布日期: 2025-05-26

💡 一句话要点

提出多模态推理Agent，解决零样本组合图像检索中的误差传播问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 零样本学习 组合图像检索 多模态推理 图像文本对齐 对比学习

📋 核心要点

现有零样本组合图像检索方法依赖中间文本表示，导致误差累积，降低检索性能。
论文提出多模态推理Agent，直接学习图像、文本和目标图像之间的关系，避免误差传播。
实验结果表明，该方法在三个标准数据集上显著提升了检索性能，优于现有基线方法。

📝 摘要（中文）

本文提出了一种用于零样本组合图像检索(ZS-CIR)的新框架，该框架利用多模态推理Agent(MRA)直接学习组合查询和目标图像之间的关系，无需依赖中间文本表示。ZS-CIR旨在根据参考图像和修改文本检索目标图像，而无需带标注的训练数据。现有方法通常使用大型语言模型(LLM)生成合成目标文本作为组合查询和目标图像之间的中间桥梁，并通过对比学习分别对齐查询-文本和文本-图像。然而，这种对中间文本的依赖会导致误差传播。MRA通过仅使用未标记的图像数据直接构建三元组<参考图像，修改文本，目标图像>来消除对文本中介的依赖。在三个标准CIR基准测试上的大量实验表明了该方法的有效性。在FashionIQ数据集上，该方法将Average R@10至少提高了7.5%；在CIRR上，R@1提高了9.6%；在CIRCO上，mAP@5提高了9.5%。

🔬 方法详解

问题定义：零样本组合图像检索(ZS-CIR)旨在根据给定的参考图像和修改文本，检索出符合修改后的目标图像。现有方法的痛点在于，它们通常依赖于大型语言模型生成中间文本表示，将组合查询分解为“图像-文本”和“文本-图像”两个对齐任务。这种方式引入了误差传播，即查询到文本的映射误差和文本到图像的映射误差会累积，最终影响检索精度。

核心思路：论文的核心思路是消除对中间文本表示的依赖，直接学习组合查询（参考图像+修改文本）与目标图像之间的关系。通过构建包含参考图像、修改文本和目标图像的三元组，并训练模型直接预测目标图像，从而避免误差传播。

技术框架：该方法的核心是多模态推理Agent (MRA)。MRA直接处理参考图像、修改文本和目标图像，无需生成中间文本。具体流程如下：1) 构建三元组数据集：利用未标注的图像数据，通过某种策略生成<参考图像，修改文本，目标图像>的三元组。2) 特征提取：使用预训练的视觉模型（如ResNet、ViT）提取参考图像和目标图像的视觉特征，使用预训练的文本模型（如BERT、CLIP）提取修改文本的文本特征。3) 多模态融合：将视觉特征和文本特征进行融合，得到组合查询的表示。4) 相似度计算：计算组合查询表示与目标图像表示之间的相似度。5) 模型训练：使用对比学习或三元组损失等方法，训练MRA模型，使其能够准确预测目标图像。

关键创新：最重要的技术创新点在于直接学习组合查询和目标图像之间的关系，避免了中间文本表示带来的误差传播。与现有方法相比，该方法无需生成中间文本，而是直接构建三元组进行训练，从而更有效地利用了未标注的图像数据。

关键设计：关键设计包括：1) 三元组构建策略：如何有效地生成高质量的三元组数据，例如，通过图像编辑、图像合成等方法。2) 多模态融合方式：如何有效地融合视觉特征和文本特征，例如，使用注意力机制、Transformer等。3) 损失函数设计：如何设计合适的损失函数，例如，使用对比学习损失、三元组损失等，以促进模型学习组合查询和目标图像之间的关系。4) 网络结构：MRA的具体网络结构，例如，使用Transformer、GNN等。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在FashionIQ、CIRR和CIRCO三个标准数据集上均取得了显著的性能提升。在FashionIQ数据集上，Average R@10至少提高了7.5%；在CIRR数据集上，R@1提高了9.6%；在CIRCO数据集上，mAP@5提高了9.5%。这些结果表明，该方法能够有效地学习组合查询和目标图像之间的关系，并显著优于现有基线方法。

🎯 应用场景

该研究成果可应用于电商平台的图像搜索、智能图像编辑、虚拟试穿等领域。例如，用户可以通过上传一张参考服装图片并输入修改描述（如“换个颜色”、“加个袖子”），快速检索到符合要求的商品。此外，该技术还可用于辅助设计，根据用户的修改需求生成新的图像。

📄 摘要（原文）

Zero-Shot Composed Image Retrieval (ZS-CIR) aims to retrieve target images given a compositional query, consisting of a reference image and a modifying text-without relying on annotated training data. Existing approaches often generate a synthetic target text using large language models (LLMs) to serve as an intermediate anchor between the compositional query and the target image. Models are then trained to align the compositional query with the generated text, and separately align images with their corresponding texts using contrastive learning. However, this reliance on intermediate text introduces error propagation, as inaccuracies in query-to-text and text-to-image mappings accumulate, ultimately degrading retrieval performance. To address these problems, we propose a novel framework by employing a Multimodal Reasoning Agent (MRA) for ZS-CIR. MRA eliminates the dependence on textual intermediaries by directly constructing triplets, , using only unlabeled image data. By training on these synthetic triplets, our model learns to capture the relationships between compositional queries and candidate images directly. Extensive experiments on three standard CIR benchmarks demonstrate the effectiveness of our approach. On the FashionIQ dataset, our method improves Average R@10 by at least 7.5\% over existing baselines; on CIRR, it boosts R@1 by 9.6\%; and on CIRCO, it increases mAP@5 by 9.5\%.

Multimodal Reasoning Agent for Zero-Shot Composed Image Retrieval

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理