WikiCLIP: An Efficient Contrastive Baseline for Open-domain Visual Entity Recognition
作者: Shan Ning, Longtian Qiu, Jiaxuan Sun, Xuming He
分类: cs.CV
发布日期: 2026-03-10
备注: Accepted by CVPR26, codes and weights are publicly available
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
WikiCLIP:一种高效的对比学习基线,用于开放域视觉实体识别。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉实体识别 开放域 对比学习 知识适配 硬负样本 视觉语义对齐 大型语言模型
📋 核心要点
- 现有开放域视觉实体识别的生成式方法计算成本高,限制了其应用。
- WikiCLIP采用对比学习范式,利用视觉引导知识适配器对齐文本和视觉信息。
- 实验表明,WikiCLIP在OVEN数据集上显著优于现有基线,推理速度提升显著。
📝 摘要(中文)
开放域视觉实体识别(VER)旨在将图像与百科知识库(如维基百科)中的实体相关联。最近为VER量身定制的生成式方法表现出强大的性能,但计算成本高昂,限制了其可扩展性和实际部署。本文重新审视了VER的对比学习范式,并引入了WikiCLIP,这是一个简单而有效的框架,为开放域VER建立了一个强大而高效的基线。WikiCLIP利用大型语言模型嵌入作为富含知识的实体表示,并通过视觉引导知识适配器(VGKA)增强它们,该适配器在patch级别将文本语义与视觉线索对齐。为了进一步鼓励细粒度的区分,硬负样本合成机制在训练期间生成视觉上相似但语义上不同的负样本。在流行的开放域VER基准(如OVEN)上的实验结果表明,WikiCLIP显著优于强大的基线。具体而言,WikiCLIP在具有挑战性的OVEN未见集上实现了16%的改进,同时与领先的生成模型AutoVER相比,推理延迟降低了近100倍。
🔬 方法详解
问题定义:开放域视觉实体识别(VER)旨在将图像与知识库中的实体进行关联。现有生成式方法虽然性能优异,但计算成本过高,难以实际部署。对比学习方法虽然效率较高,但在开放域场景下,如何有效利用知识库信息并进行细粒度的视觉语义对齐仍然是一个挑战。
核心思路:WikiCLIP的核心思路是利用对比学习框架,结合大型语言模型(LLM)的知识表示能力和视觉信息的patch级别对齐,从而实现高效且准确的开放域VER。通过视觉引导知识适配器(VGKA)将文本语义与视觉线索对齐,并采用硬负样本合成机制来提升模型的区分能力。
技术框架:WikiCLIP的整体框架包括以下几个主要模块:1) 图像编码器:用于提取图像的视觉特征。2) 文本编码器:利用大型语言模型(如CLIP)提取知识库实体描述的文本嵌入。3) 视觉引导知识适配器(VGKA):将图像的视觉特征与文本嵌入进行对齐,增强文本表示的视觉感知能力。4) 对比学习损失函数:用于训练模型,使相似的图像-文本对的嵌入向量更接近,不相似的对的嵌入向量更远离。5) 硬负样本合成机制:生成视觉上相似但语义上不同的负样本,以提升模型的区分能力。
关键创新:WikiCLIP的关键创新在于:1) 提出了视觉引导知识适配器(VGKA),能够有效地将文本语义与视觉线索在patch级别进行对齐。2) 引入了硬负样本合成机制,通过生成视觉上相似但语义上不同的负样本,显著提升了模型的区分能力。3) 采用对比学习框架,相比于生成式方法,大大降低了计算成本,提高了推理效率。
关键设计:VGKA的具体实现方式是使用Transformer结构,将图像的patch特征作为query,文本嵌入作为key和value,通过注意力机制实现视觉信息对文本表示的增强。硬负样本合成机制通过对图像进行微小的扰动,并选择与原始图像视觉相似但语义不同的实体作为负样本。对比学习损失函数采用InfoNCE损失,鼓励正样本对的嵌入向量更接近,负样本对的嵌入向量更远离。具体参数设置(如Transformer的层数、注意力头的数量、损失函数的温度系数等)需要根据实验进行调整。
🖼️ 关键图片
📊 实验亮点
WikiCLIP在OVEN数据集上取得了显著的性能提升,尤其是在具有挑战性的OVEN unseen集上,实现了16%的改进。同时,与领先的生成模型AutoVER相比,WikiCLIP的推理延迟降低了近100倍,表明其具有更高的效率和实用性。这些结果表明,WikiCLIP为开放域视觉实体识别提供了一个强大而高效的基线。
🎯 应用场景
WikiCLIP在开放域视觉实体识别方面具有广泛的应用前景,例如:智能搜索引擎、图像检索、视觉知识图谱构建、机器人导航等。该方法可以帮助机器理解图像中的实体,并将其与知识库中的信息进行关联,从而实现更智能的图像理解和应用。未来,该方法可以进一步扩展到其他多模态任务中,例如视觉问答、图像描述等。
📄 摘要(原文)
Open-domain visual entity recognition (VER) seeks to associate images with entities in encyclopedic knowledge bases such as Wikipedia. Recent generative methods tailored for VER demonstrate strong performance but incur high computational costs, limiting their scalability and practical deployment. In this work, we revisit the contrastive paradigm for VER and introduce WikiCLIP, a simple yet effective framework that establishes a strong and efficient baseline for open-domain VER. WikiCLIP leverages large language model embeddings as knowledge-rich entity representations and enhances them with a Vision-Guided Knowledge Adaptor (VGKA) that aligns textual semantics with visual cues at the patch level. To further encourage fine-grained discrimination, a Hard Negative Synthesis Mechanism generates visually similar but semantically distinct negatives during training. Experimental results on popular open-domain VER benchmarks, such as OVEN, demonstrate that WikiCLIP significantly outperforms strong baselines. Specifically, WikiCLIP achieves a 16% improvement on the challenging OVEN unseen set, while reducing inference latency by nearly 100 times compared with the leading generative model, AutoVER. The project page is available at https://artanic30.github.io/project_pages/WikiCLIP/