TEMA: Anchor the Image, Follow the Text for Multi-Modification Composed Image Retrieval

📄 arXiv: 2604.21806v1 📥 PDF

作者: Zixu Li, Yupeng Hu, Zhiheng Fu, Zhiwei Chen, Yongqi Li, Liqiang Nie

分类: cs.CV

发布日期: 2026-04-23

备注: Accepted by ACL 2026

🔗 代码/项目: GITHUB


💡 一句话要点

提出TEMA框架,解决多重修改组合图像检索中的实体覆盖不足和错位问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 组合图像检索 多模态学习 实体映射 文本图像对齐 多重修改 图像检索 深度学习

📋 核心要点

  1. 现有组合图像检索方法依赖简单修改文本,导致实体覆盖不足和子句-实体错位问题。
  2. TEMA框架通过面向文本的实体映射,有效处理多重修改,同时兼容简单修改场景。
  3. 实验结果表明,TEMA在多个数据集上优于现有方法,并在精度和效率间取得平衡。

📝 摘要(中文)

组合图像检索(CIR)是一种重要的图像检索范式,它允许用户使用包含参考图像和修改文本的多模态查询来检索目标图像。虽然CIR的研究已经取得了显著进展,但目前的方法仍然依赖于简单的修改文本,这些文本通常只涵盖有限范围的显著变化,这导致了两个与实际应用高度相关的局限性,即实体覆盖不足和子句-实体错位。为了解决这些问题,并使CIR更接近实际应用,我们构建了两个指令丰富的多重修改数据集,M-FashionIQ和M-CIRR。此外,我们提出了TEMA,即面向文本的实体映射架构,这是第一个为多重修改而设计的CIR框架,同时也适用于简单修改。在四个基准数据集上的大量实验表明,TEMA在原始和多重修改场景中都具有优越性,同时保持了检索精度和计算效率之间的最佳平衡。我们的代码和构建的多重修改数据集(M-FashionIQ和M-CIRR)可在https://github.com/lee-zixu/ACL26-TEMA/上找到。

🔬 方法详解

问题定义:组合图像检索(CIR)旨在根据参考图像和修改文本检索目标图像。现有方法主要处理简单的修改文本,无法有效处理包含多个修改指令的复杂场景。这导致了两个主要问题:一是实体覆盖不足,即修改文本未能充分描述图像中的所有相关实体;二是子句-实体错位,即文本描述与图像实体之间的对应关系不明确。

核心思路:TEMA的核心思路是建立文本导向的实体映射。它首先关注文本中的实体信息,然后将这些实体信息与图像中的视觉特征进行对齐和匹配。通过这种方式,TEMA能够更好地理解多重修改指令,并准确地检索到目标图像。这种设计使得模型能够更有效地利用文本信息,从而提高检索的准确性。

技术框架:TEMA框架主要包含以下几个模块:1) 文本编码器:用于提取修改文本的语义特征,重点关注实体信息。2) 图像编码器:用于提取参考图像和候选图像的视觉特征。3) 实体映射模块:将文本编码器提取的实体信息与图像编码器提取的视觉特征进行映射和对齐。4) 相似度计算模块:计算参考图像、修改文本和候选图像之间的相似度,并根据相似度进行排序和检索。整体流程是先分别编码文本和图像,然后通过实体映射模块建立文本和图像之间的联系,最后计算相似度并进行检索。

关键创新:TEMA的关键创新在于其面向文本的实体映射架构。与以往主要关注图像特征的方法不同,TEMA更加重视文本信息,并将其作为指导图像检索的关键线索。通过显式地建模文本中的实体信息,TEMA能够更好地理解用户的意图,并更准确地检索到目标图像。这种以文本为中心的建模方式是TEMA与现有方法的本质区别。

关键设计:TEMA的关键设计包括:1) 使用预训练语言模型(如BERT)作为文本编码器,以获得更丰富的语义信息。2) 设计特定的损失函数,鼓励实体映射模块学习到准确的文本-图像对应关系。3) 采用注意力机制,突出显示图像中与修改文本相关的区域。4) 为了平衡检索精度和计算效率,TEMA采用了一种两阶段检索策略,首先进行粗粒度检索,然后进行细粒度排序。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在M-FashionIQ和M-CIRR两个多重修改数据集上,TEMA显著优于现有方法。在传统数据集FashionIQ和CIRR上,TEMA也取得了具有竞争力的结果,证明了其在不同场景下的泛化能力。实验结果表明,TEMA在检索精度和计算效率之间取得了良好的平衡,为实际应用提供了可行性。

🎯 应用场景

TEMA框架可应用于电商平台的商品检索、图像编辑、虚拟试穿等领域。用户可以通过提供参考图像和多重修改文本,快速找到符合要求的商品或生成目标图像。该研究有助于提升用户体验,提高检索效率,并为相关应用提供更强大的技术支持。未来,该技术还可扩展到其他多模态检索任务中。

📄 摘要(原文)

Composed Image Retrieval (CIR) is an important image retrieval paradigm that enables users to retrieve a target image using a multimodal query that consists of a reference image and modification text. Although research on CIR has made significant progress, prevailing setups still rely simple modification texts that typically cover only a limited range of salient changes, which induces two limitations highly relevant to practical applications, namely Insufficient Entity Coverage and Clause-Entity Misalignment. In order to address these issues and bring CIR closer to real-world use, we construct two instruction-rich multi-modification datasets, M-FashionIQ and M-CIRR. In addition, we propose TEMA, the Text-oriented Entity Mapping Architecture, which is the first CIR framework designed for multi-modification while also accommodating simple modifications. Extensive experiments on four benchmark datasets demonstrate that TEMA's superiority in both original and multi-modification scenarios, while maintaining an optimal balance between retrieval accuracy and computational efficiency. Our codes and constructed multi-modification dataset (M-FashionIQ and M-CIRR) are available at https://github.com/lee-zixu/ACL26-TEMA/.