Denoise-I2W: Mapping Images to Denoising Words for Accurate Zero-Shot Composed Image Retrieval

作者: Yuanmin Tang, Jing Yu, Keke Gai, Jiamin Zhuang, Gaopeng Gou, Gang Xiong, Qi Wu

分类: cs.CV

发布日期: 2024-10-22

备注: This work was submitted to IJCAI 2024, with a score of weak accept and borderline accept

🔗 代码/项目: GITHUB

💡 一句话要点

提出Denoise-I2W，通过图像到去噪词映射提升零样本组合图像检索精度

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: 零样本学习 组合图像检索 图像到词映射 去噪 伪标签

📋 核心要点

现有零样本组合图像检索方法在检索和预训练阶段存在伪词token冗余，影响检索精度。
Denoise-I2W通过去噪图像到词的映射，去除与意图无关的视觉信息，提升检索准确性。
实验表明，Denoise-I2W在多个数据集上与现有模型集成后，性能提升1.45%至4.17%。

📝 摘要（中文）

零样本组合图像检索(ZS-CIR)支持多种任务，这些任务具有广泛的视觉内容操作意图，可以关联到领域、场景、对象和属性。ZS-CIR的一个关键挑战是准确地将图像表示映射到一个伪词token，该token捕获与操作意图相关的图像信息，以实现广义的CIR。然而，现有方法在检索和预训练阶段之间存在显著的伪词token冗余。本文提出了一种新的去噪图像到词映射方法，名为Denoise-I2W，用于将图像映射到去噪的伪词token，这些token不包含与意图无关的视觉信息，从而增强了准确的ZS-CIR。具体来说，一个伪三元组构建模块首先自动构建伪三元组（即，一个伪参考图像、一个伪操作文本和一个目标图像），用于预训练去噪映射网络。然后，一个伪组合映射模块将伪参考图像映射到一个伪词token，并将其与具有操作意图的伪操作文本组合。这种组合与目标图像对齐，有助于去噪与意图无关的视觉信息以进行映射。我们提出的Denoise-I2W是一种模型无关且无需标注的方法。它在四个基准数据集上的三个最先进的ZS-CIR模型中展示了强大的泛化能力。通过将Denoise-I2W与现有最佳模型集成，我们在不增加推理成本的情况下，获得了1.45%到4.17%的一致且显著的性能提升，并在ZS-CIR上实现了新的最先进的结果。

🔬 方法详解

问题定义：零样本组合图像检索(ZS-CIR)旨在根据给定的参考图像和文本描述，检索经过相应操作的目标图像。现有方法在将图像映射到伪词token时，容易引入与操作意图无关的视觉信息，导致检索精度下降。这些冗余信息使得模型难以准确捕捉图像操作的本质，从而影响检索效果。

核心思路：Denoise-I2W的核心思路是通过去噪的方式，学习一个更干净、更具有操作意图的图像表示。具体来说，它将图像映射到一个伪词token，并去除其中与操作意图无关的视觉信息。通过这种方式，模型可以更加专注于图像操作的关键特征，从而提高检索的准确性。

技术框架：Denoise-I2W主要包含两个模块：伪三元组构建模块和伪组合映射模块。伪三元组构建模块负责自动生成伪参考图像、伪操作文本和目标图像的三元组，用于训练去噪映射网络。伪组合映射模块则将伪参考图像映射到伪词token，并将其与伪操作文本组合，然后与目标图像对齐，从而实现去噪。整体流程是先构建伪数据，然后训练一个去噪的图像到词映射模型，最后将其应用于零样本组合图像检索任务。

关键创新：Denoise-I2W的关键创新在于其去噪的思想和伪三元组的构建方式。通过去噪，模型可以学习到更纯粹的操作意图表示，从而提高检索精度。伪三元组的自动构建避免了人工标注的成本，并且可以生成大量的训练数据，从而提高模型的泛化能力。此外，Denoise-I2W是一种模型无关的方法，可以与现有的ZS-CIR模型集成，进一步提升性能。

关键设计：伪三元组构建模块的设计至关重要，需要保证生成的伪数据具有一定的质量和多样性。伪组合映射模块需要选择合适的网络结构和损失函数，以实现有效的去噪。具体的网络结构和损失函数选择未知，论文中可能没有详细说明，需要参考代码实现。

🖼️ 关键图片

📊 实验亮点

Denoise-I2W在四个基准数据集上进行了评估，并与三个最先进的ZS-CIR模型集成。实验结果表明，Denoise-I2W能够显著提升现有模型的性能，提升幅度在1.45%到4.17%之间，并在ZS-CIR任务上取得了新的state-of-the-art结果。重要的是，Denoise-I2W在提升性能的同时，没有增加推理成本。

🎯 应用场景

Denoise-I2W可应用于图像编辑、图像生成、视觉搜索等领域。例如，用户可以通过输入一张图片和一段描述，快速找到经过相应编辑的图片。该技术在电商、社交媒体、内容创作等领域具有广泛的应用前景，能够提升用户体验和效率。

📄 摘要（原文）

Zero-Shot Composed Image Retrieval (ZS-CIR) supports diverse tasks with a broad range of visual content manipulation intentions that can be related to domain, scene, object, and attribute. A key challenge for ZS-CIR is to accurately map image representation to a pseudo-word token that captures the manipulation intention relevant image information for generalized CIR. However, existing methods between the retrieval and pre-training stages lead to significant redundancy in the pseudo-word tokens. In this paper, we propose a novel denoising image-to-word mapping approach, named Denoise-I2W, for mapping images into denoising pseudo-word tokens that, without intention-irrelevant visual information, enhance accurate ZS-CIR. Specifically, a pseudo triplet construction module first automatically constructs pseudo triples (\textit{i.e.,} a pseudo-reference image, a pseudo-manipulation text, and a target image) for pre-training the denoising mapping network. Then, a pseudo-composed mapping module maps the pseudo-reference image to a pseudo-word token and combines it with the pseudo-manipulation text with manipulation intention. This combination aligns with the target image, facilitating denoising intention-irrelevant visual information for mapping. Our proposed Denoise-I2W is a model-agnostic and annotation-free approach. It demonstrates strong generalization capabilities across three state-of-the-art ZS-CIR models on four benchmark datasets. By integrating Denoise-I2W with existing best models, we obtain consistent and significant performance boosts ranging from 1.45\% to 4.17\% over the best methods without increasing inference costs. and achieve new state-of-the-art results on ZS-CIR. Our code is available at \url{https://github.com/Pter61/denoise-i2w-tmm}.

Denoise-I2W: Mapping Images to Denoising Words for Accurate Zero-Shot Composed Image Retrieval

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理