Denoise-I2W: Mapping Images to Denoising Words for Accurate Zero-Shot Composed Image Retrieval
作者: Yuanmin Tang, Jing Yu, Keke Gai, Jiamin Zhuang, Gaopeng Gou, Gang Xiong, Qi Wu
分类: cs.CV
发布日期: 2024-10-22
备注: This work was submitted to IJCAI 2024, with a score of weak accept and borderline accept
🔗 代码/项目: GITHUB
💡 一句话要点
提出Denoise-I2W,通过图像到去噪词映射提升零样本组合图像检索精度
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 零样本学习 组合图像检索 图像到词映射 去噪 伪标签
📋 核心要点
- 现有零样本组合图像检索方法在检索和预训练阶段存在伪词token冗余,影响检索精度。
- Denoise-I2W通过去噪图像到词的映射,去除与意图无关的视觉信息,提升检索准确性。
- 实验表明,Denoise-I2W在多个数据集上与现有模型集成后,性能提升1.45%至4.17%。
📝 摘要(中文)
零样本组合图像检索(ZS-CIR)支持多种任务,这些任务具有广泛的视觉内容操作意图,可以关联到领域、场景、对象和属性。ZS-CIR的一个关键挑战是准确地将图像表示映射到一个伪词token,该token捕获与操作意图相关的图像信息,以实现广义的CIR。然而,现有方法在检索和预训练阶段之间存在显著的伪词token冗余。本文提出了一种新的去噪图像到词映射方法,名为Denoise-I2W,用于将图像映射到去噪的伪词token,这些token不包含与意图无关的视觉信息,从而增强了准确的ZS-CIR。具体来说,一个伪三元组构建模块首先自动构建伪三元组(即,一个伪参考图像、一个伪操作文本和一个目标图像),用于预训练去噪映射网络。然后,一个伪组合映射模块将伪参考图像映射到一个伪词token,并将其与具有操作意图的伪操作文本组合。这种组合与目标图像对齐,有助于去噪与意图无关的视觉信息以进行映射。我们提出的Denoise-I2W是一种模型无关且无需标注的方法。它在四个基准数据集上的三个最先进的ZS-CIR模型中展示了强大的泛化能力。通过将Denoise-I2W与现有最佳模型集成,我们在不增加推理成本的情况下,获得了1.45%到4.17%的一致且显著的性能提升,并在ZS-CIR上实现了新的最先进的结果。
🔬 方法详解
问题定义:零样本组合图像检索(ZS-CIR)旨在根据给定的参考图像和文本描述,检索经过相应操作的目标图像。现有方法在将图像映射到伪词token时,容易引入与操作意图无关的视觉信息,导致检索精度下降。这些冗余信息使得模型难以准确捕捉图像操作的本质,从而影响检索效果。
核心思路:Denoise-I2W的核心思路是通过去噪的方式,学习一个更干净、更具有操作意图的图像表示。具体来说,它将图像映射到一个伪词token,并去除其中与操作意图无关的视觉信息。通过这种方式,模型可以更加专注于图像操作的关键特征,从而提高检索的准确性。
技术框架:Denoise-I2W主要包含两个模块:伪三元组构建模块和伪组合映射模块。伪三元组构建模块负责自动生成伪参考图像、伪操作文本和目标图像的三元组,用于训练去噪映射网络。伪组合映射模块则将伪参考图像映射到伪词token,并将其与伪操作文本组合,然后与目标图像对齐,从而实现去噪。整体流程是先构建伪数据,然后训练一个去噪的图像到词映射模型,最后将其应用于零样本组合图像检索任务。
关键创新:Denoise-I2W的关键创新在于其去噪的思想和伪三元组的构建方式。通过去噪,模型可以学习到更纯粹的操作意图表示,从而提高检索精度。伪三元组的自动构建避免了人工标注的成本,并且可以生成大量的训练数据,从而提高模型的泛化能力。此外,Denoise-I2W是一种模型无关的方法,可以与现有的ZS-CIR模型集成,进一步提升性能。
关键设计:伪三元组构建模块的设计至关重要,需要保证生成的伪数据具有一定的质量和多样性。伪组合映射模块需要选择合适的网络结构和损失函数,以实现有效的去噪。具体的网络结构和损失函数选择未知,论文中可能没有详细说明,需要参考代码实现。
🖼️ 关键图片
📊 实验亮点
Denoise-I2W在四个基准数据集上进行了评估,并与三个最先进的ZS-CIR模型集成。实验结果表明,Denoise-I2W能够显著提升现有模型的性能,提升幅度在1.45%到4.17%之间,并在ZS-CIR任务上取得了新的state-of-the-art结果。重要的是,Denoise-I2W在提升性能的同时,没有增加推理成本。
🎯 应用场景
Denoise-I2W可应用于图像编辑、图像生成、视觉搜索等领域。例如,用户可以通过输入一张图片和一段描述,快速找到经过相应编辑的图片。该技术在电商、社交媒体、内容创作等领域具有广泛的应用前景,能够提升用户体验和效率。
📄 摘要(原文)
Zero-Shot Composed Image Retrieval (ZS-CIR) supports diverse tasks with a broad range of visual content manipulation intentions that can be related to domain, scene, object, and attribute. A key challenge for ZS-CIR is to accurately map image representation to a pseudo-word token that captures the manipulation intention relevant image information for generalized CIR. However, existing methods between the retrieval and pre-training stages lead to significant redundancy in the pseudo-word tokens. In this paper, we propose a novel denoising image-to-word mapping approach, named Denoise-I2W, for mapping images into denoising pseudo-word tokens that, without intention-irrelevant visual information, enhance accurate ZS-CIR. Specifically, a pseudo triplet construction module first automatically constructs pseudo triples (\textit{i.e.,} a pseudo-reference image, a pseudo-manipulation text, and a target image) for pre-training the denoising mapping network. Then, a pseudo-composed mapping module maps the pseudo-reference image to a pseudo-word token and combines it with the pseudo-manipulation text with manipulation intention. This combination aligns with the target image, facilitating denoising intention-irrelevant visual information for mapping. Our proposed Denoise-I2W is a model-agnostic and annotation-free approach. It demonstrates strong generalization capabilities across three state-of-the-art ZS-CIR models on four benchmark datasets. By integrating Denoise-I2W with existing best models, we obtain consistent and significant performance boosts ranging from 1.45\% to 4.17\% over the best methods without increasing inference costs. and achieve new state-of-the-art results on ZS-CIR. Our code is available at \url{https://github.com/Pter61/denoise-i2w-tmm}.