Generalizable Object Re-Identification via Visual In-Context Prompting

📄 arXiv: 2508.21222v1 📥 PDF

作者: Zhizhong Huang, Xiaoming Liu

分类: cs.CV, cs.AI

发布日期: 2025-08-28

备注: ICCV 2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于视觉上下文提示的通用物体重识别方法,无需特定类别训练。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 物体重识别 视觉上下文提示 零样本学习 大型语言模型 视觉基础模型

📋 核心要点

  1. 现有物体重识别方法依赖特定领域数据,泛化性差,且新类别需要大量标注。
  2. VICP利用视觉上下文提示,结合LLM推理和视觉基础模型特征提取,实现零样本泛化。
  3. ShopID10K数据集和实验结果表明,VICP在未见类别上显著优于现有方法。

📝 摘要(中文)

现有的物体重识别(ReID)方法训练特定领域的模型(例如,针对人或车辆),缺乏泛化能力,并且需要为新类别提供昂贵的标注数据。虽然自监督学习通过学习实例间的不变性来减少标注需求,但它难以捕捉对ReID至关重要的 extit{身份敏感}特征。本文提出了一种新的框架,即视觉上下文提示(VICP),其中在已见类别上训练的模型可以直接泛化到未见的新类别,仅使用 extit{上下文示例}作为提示,而无需参数调整。VICP协同了LLM和视觉基础模型(VFM):LLM通过任务特定的提示从少样本正/负对中推断语义身份规则,然后指导VFM(例如,DINO)通过 extit{动态视觉提示}提取ID判别特征。通过将LLM衍生的语义概念与VFM的预训练先验对齐,VICP能够泛化到新的类别,从而消除了对数据集特定重新训练的需求。为了支持评估,我们引入了ShopID10K,这是一个来自电子商务平台的10K物体实例的数据集,具有多视角图像和跨域测试。在ShopID10K和各种ReID基准上的实验表明,VICP在未见类别上明显优于基线。

🔬 方法详解

问题定义:现有的物体重识别方法通常针对特定类别(如行人、车辆)训练模型,导致模型在新类别上泛化能力不足。为每个新类别收集和标注大量数据成本高昂。自监督学习虽然能减少标注需求,但难以学习到对物体身份具有区分性的特征,限制了其在重识别任务中的应用。

核心思路:VICP的核心思想是利用大型语言模型(LLM)的语义推理能力和视觉基础模型(VFM)的视觉特征提取能力,通过视觉上下文提示实现零样本物体重识别。LLM从少量示例中学习身份规则,并指导VFM提取具有区分性的视觉特征,从而实现跨类别的泛化。

技术框架:VICP框架主要包含两个阶段:1) LLM提示阶段:利用少量正负样本对,通过任务特定的提示,让LLM学习物体身份的语义规则。例如,通过比较不同图像中的物体,判断它们是否属于同一身份。2) VFM特征提取阶段:利用LLM学习到的语义规则,生成动态视觉提示,指导VFM(如DINO)提取具有身份区分性的视觉特征。这些特征用于后续的物体匹配和重识别。

关键创新:VICP的关键创新在于将LLM的语义推理能力与VFM的视觉特征提取能力相结合,通过视觉上下文提示实现零样本物体重识别。与传统的重识别方法相比,VICP无需针对每个新类别进行训练,具有更好的泛化能力。此外,VICP利用LLM学习到的语义规则指导VFM提取特征,能够更好地捕捉物体身份的本质特征。

关键设计:VICP的关键设计包括:1) 任务特定的LLM提示:设计合适的提示语,引导LLM学习物体身份的语义规则。2) 动态视觉提示生成:根据LLM的推理结果,生成动态的视觉提示,指导VFM提取特征。3) VFM的选择:选择具有强大视觉特征提取能力的VFM,如DINO。4) 损失函数:使用合适的损失函数,优化VFM的特征提取能力,例如对比损失或三元组损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在ShopID10K数据集和多个ReID基准测试中,VICP在未见类别上的表现显著优于现有基线方法。具体性能提升幅度未知,但论文强调了“clear margin”,表明VICP具有显著优势。该结果验证了VICP在零样本物体重识别方面的有效性。

🎯 应用场景

VICP在电商、安防、机器人等领域具有广泛的应用前景。例如,在电商领域,可以用于商品追踪、重复商品检测等。在安防领域,可以用于监控视频中的物体重识别。在机器人领域,可以帮助机器人识别和跟踪特定物体。该研究能够降低模型部署成本,提升智能化水平。

📄 摘要(原文)

Current object re-identification (ReID) methods train domain-specific models (e.g., for persons or vehicles), which lack generalization and demand costly labeled data for new categories. While self-supervised learning reduces annotation needs by learning instance-wise invariance, it struggles to capture \textit{identity-sensitive} features critical for ReID. This paper proposes Visual In-Context Prompting~(VICP), a novel framework where models trained on seen categories can directly generalize to unseen novel categories using only \textit{in-context examples} as prompts, without requiring parameter adaptation. VICP synergizes LLMs and vision foundation models~(VFM): LLMs infer semantic identity rules from few-shot positive/negative pairs through task-specific prompting, which then guides a VFM (\eg, DINO) to extract ID-discriminative features via \textit{dynamic visual prompts}. By aligning LLM-derived semantic concepts with the VFM's pre-trained prior, VICP enables generalization to novel categories, eliminating the need for dataset-specific retraining. To support evaluation, we introduce ShopID10K, a dataset of 10K object instances from e-commerce platforms, featuring multi-view images and cross-domain testing. Experiments on ShopID10K and diverse ReID benchmarks demonstrate that VICP outperforms baselines by a clear margin on unseen categories. Code is available at https://github.com/Hzzone/VICP.