UniCVR: From Alignment to Reranking for Unified Zero-Shot Composed Visual Retrieval

📄 arXiv: 2604.20318v1 📥 PDF

作者: Haokun Wen, Xuemeng Song, Haoyu Zhang, Xiangyu Zhao, Weili Guan, Liqiang Nie

分类: cs.CV, cs.MM

发布日期: 2026-04-22


💡 一句话要点

提出UniCVR,统一零样本组合视觉检索框架,解决图像、视频检索任务。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 组合视觉检索 零样本学习 多模态学习 大型语言模型 视觉-语言预训练

📋 核心要点

  1. 现有组合视觉检索任务孤立研究,缺乏统一框架,尤其缺乏零样本解决方案。
  2. UniCVR利用MLLM理解组合查询,VLP模型进行结构化视觉检索,实现统一框架。
  3. 实验表明,UniCVR在多个基准测试中达到领先性能,验证了其有效性和泛化能力。

📝 摘要(中文)

本文提出UniCVR,首个统一的零样本组合视觉检索框架,无需任何特定任务的人工标注数据,即可联合处理组合图像检索、多轮组合图像检索和组合视频检索这三个任务。UniCVR巧妙地结合了多模态大型语言模型(MLLM)在组合查询理解方面的优势和视觉-语言预训练(VLP)模型在结构化视觉检索方面的优势。具体来说,UniCVR分两个阶段运行。第一阶段,通过在约350万个样本的精选多源数据集上进行对比学习,训练MLLM作为组合查询嵌入器,从而弥合MLLM和冻结的VLP图库编码器之间的异构嵌入空间。提出了一种基于聚类的困难负样本挖掘策略,以加强对比监督。第二阶段,引入了一种MLLM引导的双层重排序机制,该机制将自适应预算子集评分应用于少量排名靠前的候选对象,然后通过双层重评分方案利用由此产生的相关性信号,从而以最小的计算开销产生更准确的最终排名。在涵盖所有三个任务的五个基准上进行的大量实验表明,UniCVR实现了最先进的性能,验证了其有效性和泛化性。数据和代码将在接收后发布。

🔬 方法详解

问题定义:论文旨在解决组合图像检索、多轮组合图像检索和组合视频检索这三个任务的统一零样本学习问题。现有方法通常针对特定任务设计,缺乏通用性,且依赖大量标注数据。因此,如何设计一个通用的、零样本的组合视觉检索框架是一个挑战。

核心思路:论文的核心思路是结合多模态大型语言模型(MLLM)和视觉-语言预训练(VLP)模型的优势。MLLM擅长理解复杂的文本组合查询,而VLP模型擅长进行结构化的视觉检索。通过将两者结合,可以实现对不同类型组合视觉检索任务的有效处理,并且无需特定任务的标注数据。

技术框架:UniCVR框架包含两个主要阶段: 1. 阶段一:组合查询嵌入训练。使用对比学习训练MLLM,使其能够将组合查询嵌入到与VLP模型视觉特征空间对齐的空间中。该阶段使用一个包含约350万样本的多源数据集,并采用基于聚类的困难负样本挖掘策略。 2. 阶段二:MLLM引导的双层重排序。利用训练好的MLLM,对VLP模型检索得到的候选结果进行重排序。首先,使用自适应预算子集评分选择少量候选结果,然后通过双层重评分机制,利用MLLM提供的相关性信号,生成更准确的最终排名。

关键创新:UniCVR的关键创新在于提出了一个统一的零样本组合视觉检索框架,能够同时处理图像、多轮图像和视频检索任务。此外,该框架还引入了MLLM引导的双层重排序机制,能够有效地利用MLLM提供的语义信息,提升检索精度。

关键设计: 1. 对比学习损失函数:用于训练MLLM,目标是拉近正样本对(组合查询和对应的视觉特征),推远负样本对。损失函数的具体形式未知,但对比学习通常采用InfoNCE等损失函数。 2. 基于聚类的困难负样本挖掘:通过对视觉特征进行聚类,选择与正样本相似但不同的负样本,以增强对比学习的效果。聚类算法和聚类数量等参数未知。 3. 自适应预算子集评分:根据MLLM提供的相关性信息,动态地选择一定数量的候选结果进行重排序。具体选择策略和预算大小未知。 4. 双层重评分机制:利用MLLM提供的相关性信号,对候选结果进行两轮评分,以提升检索精度。具体的评分函数和权重设置未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

UniCVR在五个基准测试中取得了最先进的性能,证明了其有效性和泛化能力。具体的性能数据和对比基线未知,但论文强调UniCVR在零样本设置下,无需任何特定任务的标注数据,即可达到领先水平,这是一个显著的优势。

🎯 应用场景

UniCVR具有广泛的应用前景,例如智能搜索引擎、电商平台的商品检索、视频内容理解和推荐等。该研究能够提升用户在复杂场景下的检索体验,并降低对人工标注数据的依赖,具有重要的实际价值和潜在的商业应用。

📄 摘要(原文)

Composed image retrieval, multi-turn composed image retrieval, and composed video retrieval all share a common paradigm: composing the reference visual with modification text to retrieve the desired target. Despite this shared structure, the three tasks have been studied in isolation, with no prior work proposing a unified framework, let alone a zero-shot solution. In this paper, we propose UniCVR, the first unified zero-shot composed visual retrieval framework that jointly addresses all three tasks without any task-specific human-annotated data. UniCVR strategically combines two complementary strengths: Multimodal Large Language Models (MLLMs) for compositional query understanding and Vision-Language Pre-trained (VLP) models for structured visual retrieval. Concretely, UniCVR operates in two stages. In Stage I, we train the MLLM as a compositional query embedder via contrastive learning on a curated multi-source dataset of approximately 3.5M samples, bridging the heterogeneous embedding spaces between the MLLM and the frozen VLP gallery encoder. A cluster-based hard negative sampling strategy is proposed to strengthen contrastive supervision. In Stage II, we introduce an MLLM-guided dual-level reranking mechanism that applies adaptive budgeted subset scoring to a small number of top-ranked candidates, and then exploits the resulting relevance signals through a dual-level re-scoring scheme, producing more accurate final rankings with minimal computational overhead. Extensive experiments across five benchmarks covering all three tasks demonstrate that UniCVR achieves cutting-edge performance, validating its effectiveness and generalizability. Our data and code will be released upon acceptance.