Pix2Key: Controllable Open-Vocabulary Retrieval with Semantic Decomposition and Self-Supervised Visual Dictionary Learning

📄 arXiv: 2602.22510 📥 PDF

作者: Guoyizhe Wei, Yang Jiao, Nan Xi, Zhishen Huang, Jingjing Meng, Rama Chellappa, Yan Gao

分类: cs.CV

发布日期: 2026-02-28


💡 一句话要点

Pix2Key提出基于语义分解和自监督视觉字典学习的可控开放词汇图像检索方法

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 组合图像检索 开放词汇 视觉字典 自监督学习 语义分解

📋 核心要点

  1. 现有组合图像检索方法难以兼顾细粒度线索和用户隐式意图,导致检索结果不准确或重复。
  2. Pix2Key将图像表示为开放词汇视觉字典,在统一嵌入空间中进行意图感知的约束匹配和多样性重排序。
  3. 自监督预训练组件V-Dict-AE仅使用图像增强细粒度属性理解,无需CIR特定监督,进一步提升检索性能。

📝 摘要(中文)

组合图像检索(CIR)使用参考图像和一个自然语言编辑指令来检索应用了请求的修改,同时保留其他相关视觉内容的图像。传统融合流程通常依赖于有监督的三元组,可能丢失细粒度线索。而最近的零样本方法通常对参考图像进行描述,并将描述与编辑指令合并,这可能忽略了用户的隐式意图并返回重复的结果。我们提出了Pix2Key,它将查询和候选图像表示为开放词汇视觉字典,从而在统一的嵌入空间中实现意图感知的约束匹配和多样性感知的重排序。一个自监督预训练组件V-Dict-AE,仅使用图像进一步改进了字典表示,增强了细粒度属性理解,而无需CIR特定的监督。在DFMM-Compose基准测试中,Pix2Key将Recall@10提高了3.2个百分点,添加V-Dict-AE后,又获得了2.3个百分点的提升,同时提高了意图一致性并保持了较高的列表多样性。

🔬 方法详解

问题定义:组合图像检索(CIR)旨在根据参考图像和自然语言编辑指令,检索出符合修改要求且保留原图像视觉内容的目标图像。现有方法,如基于监督三元组的融合方法,容易丢失细粒度信息;而零样本方法依赖图像描述,可能忽略用户隐式意图,导致检索结果不准确或重复。

核心思路:Pix2Key的核心在于将图像(包括查询图像和候选图像)表示为开放词汇的视觉字典。通过这种方式,可以将图像的视觉内容分解为语义相关的视觉词汇,从而实现更精确的意图感知约束匹配和多样性感知的重排序。

技术框架:Pix2Key主要包含两个核心模块:视觉字典构建和检索排序。首先,利用预训练的视觉模型提取图像特征,并将其映射到开放词汇空间,构建视觉字典。然后,在统一的嵌入空间中,根据查询图像和编辑指令,对候选图像进行约束匹配和重排序,选择最符合要求的图像。此外,还引入了自监督预训练模块V-Dict-AE,用于提升视觉字典的质量。

关键创新:Pix2Key的关键创新在于使用开放词汇视觉字典来表示图像,这使得模型能够更好地理解图像的语义信息,并根据用户的意图进行检索。与传统的基于图像描述的方法相比,Pix2Key能够更好地捕捉用户的隐式意图,并避免返回重复的结果。此外,自监督预训练模块V-Dict-AE的引入,进一步提升了视觉字典的质量,而无需依赖CIR特定的监督数据。

关键设计:V-Dict-AE采用自编码器结构,以图像作为输入,通过编码器将其映射到视觉字典空间,然后通过解码器重构图像。损失函数包括重构损失和视觉字典的正则化项,用于保证视觉字典的质量和多样性。在检索排序阶段,采用余弦相似度来衡量查询图像和候选图像之间的相似度,并根据编辑指令进行约束匹配和重排序。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

Pix2Key在DFMM-Compose基准测试中取得了显著的性能提升。相比于现有方法,Pix2Key的Recall@10指标提高了3.2个百分点。进一步引入自监督预训练模块V-Dict-AE后,Recall@10又提升了2.3个百分点,同时提高了检索结果的意图一致性和列表多样性。实验结果表明,Pix2Key能够有效地捕捉用户的隐式意图,并返回更准确、更多样化的检索结果。

🎯 应用场景

Pix2Key在电商、图像编辑、智能家居等领域具有广泛的应用前景。例如,用户可以通过上传一张沙发图片并输入“换成蓝色”的指令,快速检索到符合要求的商品。该技术还可以应用于图像编辑软件中,帮助用户快速修改图像的风格或内容。在智能家居领域,用户可以通过语音指令控制家居设备的外观或功能。

📄 摘要(原文)

Composed Image Retrieval (CIR) uses a reference image plus a natural-language edit to retrieve images that apply the requested change while preserving other relevant visual content. Classic fusion pipelines typically rely on supervised triplets and can lose fine-grained cues, while recent zero-shot approaches often caption the reference image and merge the caption with the edit, which may miss implicit user intent and return repetitive results. We present Pix2Key, which represents both queries and candidates as open-vocabulary visual dictionaries, enabling intent-aware constraint matching and diversity-aware reranking in a unified embedding space. A self-supervised pretraining component, V-Dict-AE, further improves the dictionary representation using only images, strengthening fine-grained attribute understanding without CIR-specific supervision. On the DFMM-Compose benchmark, Pix2Key improves Recall@10 up to 3.2 points, and adding V-Dict-AE yields an additional 2.3-point gain while improving intent consistency and maintaining high list diversity.