TEMA: Anchor the Image, Follow the Text for Multi-Modification Composed Image Retrieval

作者: Zixu Li, Yupeng Hu, Zhiheng Fu, Zhiwei Chen, Yongqi Li, Liqiang Nie

分类: cs.CV

发布日期: 2026-04-23 (更新: 2026-04-24)

备注: Accepted by ACL 2026

🔗 代码/项目: GITHUB

💡 一句话要点

提出TEMA框架，解决多重修改组合图像检索中的实体覆盖不足和错位问题。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 组合图像检索 多模态学习 实体映射 文本图像对齐 深度学习

📋 核心要点

现有组合图像检索方法依赖简单修改文本，导致实体覆盖不足和子句-实体错位问题。
TEMA框架通过面向文本的实体映射，有效处理多重修改，同时兼容简单修改场景。
实验结果表明，TEMA在多个数据集上优于现有方法，兼顾检索精度和计算效率。

📝 摘要（中文）

组合图像检索（CIR）是一种重要的图像检索范式，它允许用户使用包含参考图像和修改文本的多模态查询来检索目标图像。虽然CIR的研究已经取得了显著进展，但目前的方法仍然依赖于简单的修改文本，这些文本通常只涵盖有限范围的显著变化，这导致了两个与实际应用高度相关的局限性，即实体覆盖不足和子句-实体错位。为了解决这些问题，并使CIR更接近实际应用，我们构建了两个指令丰富的多重修改数据集，M-FashionIQ和M-CIRR。此外，我们提出了TEMA，即面向文本的实体映射架构，这是第一个为多重修改设计的CIR框架，同时也适用于简单修改。在四个基准数据集上的大量实验表明，TEMA在原始和多重修改场景中都具有优越性，同时保持了检索精度和计算效率之间的最佳平衡。我们的代码和构建的多重修改数据集（M-FashionIQ和M-CIRR）可在https://github.com/lee-zixu/ACL26-TEMA/ 获得。

🔬 方法详解

问题定义：组合图像检索（CIR）旨在根据参考图像和修改文本检索目标图像。现有方法主要处理简单的修改文本，无法有效处理包含多个修改指令的复杂场景。这导致两个主要问题：一是实体覆盖不足，即修改文本未能充分描述图像中的所有相关实体；二是子句-实体错位，即修改文本中的子句与图像中的实体对应关系不明确。

核心思路：TEMA的核心思路是建立文本导向的实体映射。它首先关注文本中的实体，然后将这些实体与图像中的对应区域或特征建立关联。通过这种方式，TEMA能够更准确地理解修改文本的含义，并将其应用于图像检索。这种设计使得TEMA能够处理包含多个修改指令的复杂场景，并缓解实体覆盖不足和子句-实体错位问题。

技术框架：TEMA的整体架构包含以下几个主要模块：1) 文本编码器：用于提取修改文本的语义特征。2) 图像编码器：用于提取参考图像的视觉特征。3) 实体映射模块：该模块是TEMA的核心，用于建立文本实体与图像区域之间的对应关系。4) 融合模块：将文本和图像特征进行融合，生成最终的查询表示。5) 检索模块：根据查询表示在图像数据库中进行检索。

关键创新：TEMA的关键创新在于其面向文本的实体映射模块。该模块通过注意力机制或其他映射方法，将文本中的实体与图像中的对应区域或特征建立关联。这种方法能够更准确地理解修改文本的含义，并将其应用于图像检索。与现有方法相比，TEMA能够更好地处理包含多个修改指令的复杂场景，并缓解实体覆盖不足和子句-实体错位问题。

关键设计：TEMA的具体实现细节包括：1) 使用预训练的语言模型（如BERT）作为文本编码器。2) 使用卷积神经网络（CNN）或Transformer作为图像编码器。3) 实体映射模块可以使用注意力机制，例如Transformer的自注意力机制，来建立文本实体与图像区域之间的对应关系。4) 损失函数可以使用三元组损失或对比损失，以优化模型的检索性能。

🖼️ 关键图片

📊 实验亮点

TEMA在FashionIQ、CIRR等四个基准数据集上进行了广泛的实验，结果表明TEMA在原始和多重修改场景中都取得了显著的性能提升。尤其是在多重修改数据集M-FashionIQ和M-CIRR上，TEMA的性能远超现有方法，证明了其在处理复杂修改场景方面的优越性。同时，TEMA在保持高检索精度的前提下，也兼顾了计算效率。

🎯 应用场景

TEMA框架在电商、时尚、家居等领域具有广泛的应用前景。例如，用户可以通过上传一张衣服的图片，并添加“换个颜色”、“去掉袖子”等修改指令，快速找到符合要求的商品。此外，TEMA还可以应用于图像编辑、图像生成等领域，为用户提供更智能、更便捷的图像处理服务。未来，该技术有望进一步发展，实现更复杂、更自然的图像修改和检索。

📄 摘要（原文）

Composed Image Retrieval (CIR) is an important image retrieval paradigm that enables users to retrieve a target image using a multimodal query that consists of a reference image and modification text. Although research on CIR has made significant progress, prevailing setups still rely simple modification texts that typically cover only a limited range of salient changes, which induces two limitations highly relevant to practical applications, namely Insufficient Entity Coverage and Clause-Entity Misalignment. In order to address these issues and bring CIR closer to real-world use, we construct two instruction-rich multi-modification datasets, M-FashionIQ and M-CIRR. In addition, we propose TEMA, the Text-oriented Entity Mapping Architecture, which is the first CIR framework designed for multi-modification while also accommodating simple modifications. Extensive experiments on four benchmark datasets demonstrate that TEMA's superiority in both original and multi-modification scenarios, while maintaining an optimal balance between retrieval accuracy and computational efficiency. Our codes and constructed multi-modification dataset (M-FashionIQ and M-CIRR) are available at https://github.com/lee-zixu/ACL26-TEMA/.

TEMA: Anchor the Image, Follow the Text for Multi-Modification Composed Image Retrieval

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理