Missing Target-Relevant Information Prediction with World Model for Accurate Zero-Shot Composed Image Retrieval

作者: Yuanmin Tang, Jing Yu, Keke Gai, Jiamin Zhuang, Gang Xiong, Gaopeng Gou, Qi Wu

分类: cs.CV

发布日期: 2025-03-21 (更新: 2025-03-30)

备注: This work has been accepted to CVPR 2025

🔗 代码/项目: GITHUB

💡 一句话要点

PrediCIR：利用世界模型预测缺失目标信息，提升零样本组合图像检索精度

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 零样本学习 组合图像检索 世界模型 缺失信息预测 图像文本对齐

📋 核心要点

现有零样本组合图像检索方法在参考图像缺失关键目标内容时，难以准确检索目标图像。
PrediCIR通过世界模型预测参考图像中缺失的目标视觉信息，从而弥补信息缺失，提升检索精度。
实验表明，PrediCIR在六个ZS-CIR任务上取得了显著的性能提升，超越了现有最佳方法。

📝 摘要（中文）

零样本组合图像检索(ZS-CIR)涉及跨领域、场景、对象和属性的各种视觉内容操作意图。ZS-CIR任务的关键挑战在于根据操作文本修改参考图像，以准确检索目标图像，尤其是在参考图像缺少必要目标内容时。本文提出了一种新的基于预测的映射网络PrediCIR，在映射之前自适应地预测参考图像中潜在空间中缺失的目标视觉内容，以实现精确的ZS-CIR。具体来说，世界视图生成模块首先通过省略目标视图的某些视觉内容来构建源视图，并结合包含从现有图像-标题对导出的操作意图的动作。然后，目标内容预测模块训练一个世界模型作为预测器，以自适应地预测由操作文本中的用户意图引导的潜在空间中缺失的视觉信息。这两个模块将具有预测相关信息的图像映射到伪词标记，而无需额外的监督。我们的模型在六个ZS-CIR任务上显示出强大的泛化能力，相对于最佳方法，获得了1.73%到4.45%的一致且显著的性能提升，并在ZS-CIR上实现了新的最先进的结果。代码可在https://github.com/Pter61/predicir 获取。

🔬 方法详解

问题定义：零样本组合图像检索(ZS-CIR)旨在根据给定的参考图像和文本描述，检索出经过文本描述修改后的目标图像。现有方法在处理参考图像缺少目标图像的关键视觉信息时，性能会显著下降。这是因为模型无法有效地将参考图像映射到目标图像，导致检索结果不准确。

核心思路：PrediCIR的核心思路是预测参考图像中缺失的目标视觉信息。通过构建一个世界模型，学习图像和文本描述之间的关系，从而能够根据文本描述，预测参考图像中应该存在但实际缺失的视觉内容。这样，模型就可以在映射之前“补全”参考图像，从而提高检索的准确性。

技术框架：PrediCIR包含两个主要模块：世界视图生成模块和目标内容预测模块。世界视图生成模块负责构建源视图（缺少某些视觉内容的目标视图）和动作（来自图像-标题对的操作意图）。目标内容预测模块训练一个世界模型，该模型根据操作文本预测潜在空间中缺失的视觉信息。这两个模块共同作用，将包含预测信息的图像映射到伪词标记。

关键创新：PrediCIR的关键创新在于利用世界模型来预测缺失的目标视觉信息。与现有方法直接将参考图像映射到目标图像不同，PrediCIR首先预测缺失的信息，然后再进行映射。这种方法可以有效地处理参考图像信息不完整的情况，从而提高检索的准确性。此外，该方法无需额外的监督信息。

关键设计：世界模型采用Transformer架构，输入包括源视图和操作文本的嵌入表示，输出是缺失视觉信息的预测。损失函数包括重构损失和对比学习损失，用于保证预测的准确性和一致性。具体参数设置和网络结构细节可在论文原文和代码中找到。

🖼️ 关键图片

📊 实验亮点

PrediCIR在六个零样本组合图像检索任务上取得了显著的性能提升，相对于现有最佳方法，获得了1.73%到4.45%的一致性提升，并在ZS-CIR上实现了新的state-of-the-art结果。这些结果表明，PrediCIR能够有效地处理参考图像信息不完整的情况，从而提高检索的准确性。

🎯 应用场景

该研究成果可应用于图像编辑、图像生成、视觉问答等领域。例如，用户可以通过文本描述修改图像，即使原始图像缺少某些元素，模型也能根据文本描述生成或检索出符合要求的图像。此外，该技术还可以用于辅助机器人理解场景，从而更好地完成任务。

📄 摘要（原文）

Zero-Shot Composed Image Retrieval (ZS-CIR) involves diverse tasks with a broad range of visual content manipulation intent across domain, scene, object, and attribute. The key challenge for ZS-CIR tasks is to modify a reference image according to manipulation text to accurately retrieve a target image, especially when the reference image is missing essential target content. In this paper, we propose a novel prediction-based mapping network, named PrediCIR, to adaptively predict the missing target visual content in reference images in the latent space before mapping for accurate ZS-CIR. Specifically, a world view generation module first constructs a source view by omitting certain visual content of a target view, coupled with an action that includes the manipulation intent derived from existing image-caption pairs. Then, a target content prediction module trains a world model as a predictor to adaptively predict the missing visual information guided by user intention in manipulating text at the latent space. The two modules map an image with the predicted relevant information to a pseudo-word token without extra supervision. Our model shows strong generalization ability on six ZS-CIR tasks. It obtains consistent and significant performance boosts ranging from 1.73% to 4.45% over the best methods and achieves new state-of-the-art results on ZS-CIR. Our code is available at https://github.com/Pter61/predicir.

Missing Target-Relevant Information Prediction with World Model for Accurate Zero-Shot Composed Image Retrieval

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理