Generalizable Object Re-Identification via Visual In-Context Prompting

作者: Zhizhong Huang, Xiaoming Liu

分类: cs.CV, cs.AI

发布日期: 2025-08-28

备注: ICCV 2025

🔗 代码/项目: GITHUB

💡 一句话要点

提出基于视觉上下文提示的通用物体重识别方法，无需特定类别训练。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 物体重识别 视觉上下文提示 零样本学习 大型语言模型 视觉基础模型

📋 核心要点

现有物体重识别方法依赖特定领域数据，泛化性差，且新类别需要大量标注。
VICP利用视觉上下文提示，结合LLM推理和视觉基础模型特征提取，实现零样本泛化。
ShopID10K数据集和实验结果表明，VICP在未见类别上显著优于现有方法。

📝 摘要（中文）

现有的物体重识别(ReID)方法训练特定领域的模型(例如，针对人或车辆)，缺乏泛化能力，并且需要为新类别提供昂贵的标注数据。虽然自监督学习通过学习实例间的不变性来减少标注需求，但它难以捕捉对ReID至关重要的 extit{身份敏感}特征。本文提出了一种新的框架，即视觉上下文提示(VICP)，其中在已见类别上训练的模型可以直接泛化到未见的新类别，仅使用 extit{上下文示例}作为提示，而无需参数调整。VICP协同了LLM和视觉基础模型(VFM)：LLM通过任务特定的提示从少样本正/负对中推断语义身份规则，然后指导VFM(例如，DINO)通过 extit{动态视觉提示}提取ID判别特征。通过将LLM衍生的语义概念与VFM的预训练先验对齐，VICP能够泛化到新的类别，从而消除了对数据集特定重新训练的需求。为了支持评估，我们引入了ShopID10K，这是一个来自电子商务平台的10K物体实例的数据集，具有多视角图像和跨域测试。在ShopID10K和各种ReID基准上的实验表明，VICP在未见类别上明显优于基线。

🔬 方法详解

问题定义：现有的物体重识别方法通常针对特定类别（如行人、车辆）训练模型，导致模型在新类别上泛化能力不足。为每个新类别收集和标注大量数据成本高昂。自监督学习虽然能减少标注需求，但难以学习到对物体身份具有区分性的特征，限制了其在重识别任务中的应用。

核心思路：VICP的核心思想是利用大型语言模型（LLM）的语义推理能力和视觉基础模型（VFM）的视觉特征提取能力，通过视觉上下文提示实现零样本物体重识别。LLM从少量示例中学习身份规则，并指导VFM提取具有区分性的视觉特征，从而实现跨类别的泛化。

技术框架：VICP框架主要包含两个阶段：1) LLM提示阶段：利用少量正负样本对，通过任务特定的提示，让LLM学习物体身份的语义规则。例如，通过比较不同图像中的物体，判断它们是否属于同一身份。2) VFM特征提取阶段：利用LLM学习到的语义规则，生成动态视觉提示，指导VFM（如DINO）提取具有身份区分性的视觉特征。这些特征用于后续的物体匹配和重识别。

关键创新：VICP的关键创新在于将LLM的语义推理能力与VFM的视觉特征提取能力相结合，通过视觉上下文提示实现零样本物体重识别。与传统的重识别方法相比，VICP无需针对每个新类别进行训练，具有更好的泛化能力。此外，VICP利用LLM学习到的语义规则指导VFM提取特征，能够更好地捕捉物体身份的本质特征。

关键设计：VICP的关键设计包括：1) 任务特定的LLM提示：设计合适的提示语，引导LLM学习物体身份的语义规则。2) 动态视觉提示生成：根据LLM的推理结果，生成动态的视觉提示，指导VFM提取特征。3) VFM的选择：选择具有强大视觉特征提取能力的VFM，如DINO。4) 损失函数：使用合适的损失函数，优化VFM的特征提取能力，例如对比损失或三元组损失。

🖼️ 关键图片

📊 实验亮点

在ShopID10K数据集和多个ReID基准测试中，VICP在未见类别上的表现显著优于现有基线方法。具体性能提升幅度未知，但论文强调了“clear margin”，表明VICP具有显著优势。该结果验证了VICP在零样本物体重识别方面的有效性。

🎯 应用场景

VICP在电商、安防、机器人等领域具有广泛的应用前景。例如，在电商领域，可以用于商品追踪、重复商品检测等。在安防领域，可以用于监控视频中的物体重识别。在机器人领域，可以帮助机器人识别和跟踪特定物体。该研究能够降低模型部署成本，提升智能化水平。

📄 摘要（原文）

Current object re-identification (ReID) methods train domain-specific models (e.g., for persons or vehicles), which lack generalization and demand costly labeled data for new categories. While self-supervised learning reduces annotation needs by learning instance-wise invariance, it struggles to capture \textit{identity-sensitive} features critical for ReID. This paper proposes Visual In-Context Prompting~(VICP), a novel framework where models trained on seen categories can directly generalize to unseen novel categories using only \textit{in-context examples} as prompts, without requiring parameter adaptation. VICP synergizes LLMs and vision foundation models~(VFM): LLMs infer semantic identity rules from few-shot positive/negative pairs through task-specific prompting, which then guides a VFM (\eg, DINO) to extract ID-discriminative features via \textit{dynamic visual prompts}. By aligning LLM-derived semantic concepts with the VFM's pre-trained prior, VICP enables generalization to novel categories, eliminating the need for dataset-specific retraining. To support evaluation, we introduce ShopID10K, a dataset of 10K object instances from e-commerce platforms, featuring multi-view images and cross-domain testing. Experiments on ShopID10K and diverse ReID benchmarks demonstrate that VICP outperforms baselines by a clear margin on unseen categories. Code is available at https://github.com/Hzzone/VICP.

Generalizable Object Re-Identification via Visual In-Context Prompting

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理