Pix2Key: Controllable Open-Vocabulary Retrieval with Semantic Decomposition and Self-Supervised Visual Dictionary Learning

📄 arXiv: 2602.22510v1 📥 PDF

作者: Guoyizhe Wei, Yang Jiao, Nan Xi, Zhishen Huang, Jingjing Meng, Rama Chellappa, Yan Gao

分类: cs.CV

发布日期: 2026-02-26


💡 一句话要点

Pix2Key提出基于语义分解和自监督视觉字典学习的可控开放词汇图像检索方法

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 组合图像检索 开放词汇 视觉字典 自监督学习 语义分解

📋 核心要点

  1. 现有组合图像检索方法难以捕捉细粒度线索和用户隐式意图,导致检索结果不准确且重复。
  2. Pix2Key将查询和候选图像表示为开放词汇视觉字典,实现意图感知的约束匹配和多样性重排序。
  3. 自监督预训练组件V-Dict-AE进一步提升字典表示,在DFMM-Compose上显著提升Recall@10并提高意图一致性。

📝 摘要(中文)

组合图像检索(CIR)使用参考图像和一个自然语言编辑指令来检索应用了请求的更改,同时保留其他相关视觉内容的图像。经典融合流程通常依赖于有监督的三元组,可能丢失细粒度的线索;而最近的零样本方法通常对参考图像进行描述,并将描述与编辑指令合并,这可能会遗漏用户的隐式意图并返回重复的结果。我们提出了Pix2Key,它将查询和候选图像表示为开放词汇视觉字典,从而在统一的嵌入空间中实现意图感知的约束匹配和多样性感知的重排序。一个自监督预训练组件V-Dict-AE,仅使用图像进一步改进了字典表示,在没有CIR特定监督的情况下加强了细粒度的属性理解。在DFMM-Compose基准测试中,Pix2Key将Recall@10提高了3.2个百分点,添加V-Dict-AE后,又获得了2.3个百分点的提升,同时提高了意图一致性并保持了较高的列表多样性。

🔬 方法详解

问题定义:组合图像检索(CIR)旨在根据给定的参考图像和自然语言编辑指令,检索出符合编辑要求且保留原图视觉内容的目标图像。现有方法,如基于监督三元组的融合方法,容易丢失细粒度信息;而零样本方法依赖于图像描述,可能忽略用户隐式意图,导致检索结果不准确和重复。

核心思路:Pix2Key的核心思想是将图像和文本编辑指令都映射到同一个开放词汇视觉字典空间中,从而实现意图感知的约束匹配和多样性重排序。通过视觉字典,模型能够更好地理解图像的细粒度属性和用户编辑意图,从而提高检索的准确性和多样性。

技术框架:Pix2Key包含两个主要模块:视觉字典学习和检索排序。首先,使用自监督预训练组件V-Dict-AE学习视觉字典,将图像编码为视觉单词的组合。然后,将查询图像和文本编辑指令也编码到视觉字典空间中。最后,使用约束匹配和多样性重排序算法,在候选图像中检索出最符合要求的图像。

关键创新:Pix2Key的关键创新在于使用开放词汇视觉字典来表示图像和文本,从而实现意图感知的约束匹配。与现有方法相比,Pix2Key能够更好地理解图像的细粒度属性和用户编辑意图,从而提高检索的准确性和多样性。此外,自监督预训练组件V-Dict-AE进一步提升了视觉字典的表示能力。

关键设计:V-Dict-AE使用自编码器结构,通过重建图像来学习视觉字典。损失函数包括重建损失和字典正则化项,以保证字典的质量和稀疏性。检索排序阶段,使用约束匹配算法来衡量查询和候选图像之间的相似度,并使用多样性重排序算法来提高检索结果的多样性。具体参数设置未知。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

Pix2Key在DFMM-Compose基准测试中取得了显著的性能提升。相比现有方法,Pix2Key将Recall@10提高了3.2个百分点,添加V-Dict-AE后,又获得了额外的2.3个百分点的提升。实验结果表明,Pix2Key能够有效提高组合图像检索的准确性和多样性,并具有较强的意图一致性。

🎯 应用场景

该研究成果可应用于电商平台的商品检索、图像编辑、虚拟试穿等领域。例如,用户可以通过上传一张衣服的图片,并输入“换成红色”的指令,快速检索到相同款式但颜色为红色的商品。该技术还可以用于图像生成和编辑,例如根据用户的指令修改图像的风格或内容。

📄 摘要(原文)

Composed Image Retrieval (CIR) uses a reference image plus a natural-language edit to retrieve images that apply the requested change while preserving other relevant visual content. Classic fusion pipelines typically rely on supervised triplets and can lose fine-grained cues, while recent zero-shot approaches often caption the reference image and merge the caption with the edit, which may miss implicit user intent and return repetitive results. We present Pix2Key, which represents both queries and candidates as open-vocabulary visual dictionaries, enabling intent-aware constraint matching and diversity-aware reranking in a unified embedding space. A self-supervised pretraining component, V-Dict-AE, further improves the dictionary representation using only images, strengthening fine-grained attribute understanding without CIR-specific supervision. On the DFMM-Compose benchmark, Pix2Key improves Recall@10 up to 3.2 points, and adding V-Dict-AE yields an additional 2.3-point gain while improving intent consistency and maintaining high list diversity.