Unconstrained Open Vocabulary Image Classification: Zero-Shot Transfer from Text to Image via CLIP Inversion
作者: Philipp Allgeuer, Kyra Ahrens, Stefan Wermter
分类: cs.CV, cs.AI, cs.CL
发布日期: 2024-07-15 (更新: 2024-11-26)
备注: Published at WACV 2025
期刊: Winter Conference on Applications of Computer Vision (WACV), 2025, pp. 8206-8217
DOI: 10.1109/WACV61041.2025.00797
💡 一句话要点
提出NOVIC,通过CLIP反演实现无约束开放词汇图像分类的零样本迁移。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 开放词汇图像分类 零样本学习 CLIP模型 文本图像对齐 Transformer解码器
📋 核心要点
- 现有CLIP模型依赖于预定义的类别标签,限制了其在开放场景下的应用,无法处理未知内容的图像。
- NOVIC通过训练一个对象解码器,将图像嵌入反演为文本标签,从而实现无约束的开放词汇图像分类。
- 实验结果表明,NOVIC在各种数据集上取得了优异的零样本分类性能,最高可达87.5%的准确率。
📝 摘要(中文)
本文介绍了一种创新的实时无约束开放词汇图像分类器NOVIC,它使用自回归Transformer以生成方式输出分类标签作为语言。NOVIC利用CLIP模型的广泛知识,通过CLIP反演实现从纯文本到图像的零样本迁移。传统的CLIP模型虽然具有开放词汇分类能力,但需要详尽的潜在类别标签提示,限制了其在已知内容或上下文图像中的应用。为了解决这个问题,我们提出了一个“对象解码器”模型,该模型在一个大规模的9200万目标数据集上进行训练,该数据集包含模板化的对象名词集和LLM生成的标题,以始终输出所讨论的对象名词。这有效地反演了CLIP文本编码器,并允许从图像导出的嵌入向量直接生成本质上来自整个英语语言的文本对象标签,而无需任何关于图像潜在内容的先验知识,也无需任何标签偏差。训练后的解码器在一系列手动和网络策划的数据集以及标准图像分类基准上进行了测试,并实现了高达87.5%的细粒度无提示预测分数,考虑到该模型必须适用于任何可以想象的图像且没有任何上下文线索,这是一个强有力的结果。
🔬 方法详解
问题定义:论文旨在解决开放词汇图像分类问题,即在没有任何预先定义的类别标签的情况下,对图像进行分类。现有方法,如直接使用CLIP模型,需要提供所有可能的类别标签作为prompt,这在实际应用中是不可行的,尤其是在图像内容未知的情况下。此外,这些方法容易受到prompt偏差的影响,导致分类结果不准确。
核心思路:论文的核心思路是利用CLIP模型的文本编码器和图像编码器之间的对齐关系,训练一个“对象解码器”来反演CLIP的文本编码器。具体来说,给定一个图像,首先使用CLIP的图像编码器提取图像的嵌入向量,然后使用训练好的对象解码器将该嵌入向量解码为文本标签。这样,就可以直接从图像中生成文本描述,而无需任何预定义的类别标签。
技术框架:NOVIC的整体框架包括以下几个主要模块:1) CLIP图像编码器:用于提取图像的嵌入向量。2) 对象解码器:一个自回归Transformer模型,用于将图像嵌入向量解码为文本标签。3) 大规模训练数据集:包含9200万个模板化的对象名词集和LLM生成的标题,用于训练对象解码器。训练过程旨在使解码器能够根据图像嵌入向量准确地预测图像中包含的对象名词。
关键创新:该论文的关键创新在于提出了“对象解码器”的概念,并成功地将其应用于CLIP模型的反演。通过训练对象解码器,实现了从图像嵌入向量到文本标签的直接映射,从而解决了开放词汇图像分类问题。与现有方法相比,NOVIC不需要任何预定义的类别标签,也不受prompt偏差的影响,具有更强的泛化能力。
关键设计:对象解码器是一个自回归Transformer模型,其输入是CLIP图像编码器提取的图像嵌入向量,输出是文本标签。训练对象解码器时,使用了交叉熵损失函数,目标是最小化预测文本标签与真实文本标签之间的差异。为了提高解码器的性能,使用了大规模的训练数据集,并采用了数据增强等技术。
🖼️ 关键图片
📊 实验亮点
NOVIC在各种数据集上取得了优异的零样本分类性能。在手动和网络策划的数据集上,NOVIC实现了高达87.5%的细粒度无提示预测分数。此外,NOVIC在标准图像分类基准上也表现出色,证明了其在开放词汇图像分类方面的有效性。这些结果表明,NOVIC是一种强大的图像分类器,具有很强的泛化能力。
🎯 应用场景
NOVIC具有广泛的应用前景,例如智能相册管理(自动识别照片中的物体并进行分类)、图像搜索(通过文本描述搜索图像)、机器人视觉(使机器人能够理解周围环境)等。该研究为开发更智能、更通用的图像理解系统奠定了基础,未来可应用于自动驾驶、智能安防等领域。
📄 摘要(原文)
We introduce NOVIC, an innovative real-time uNconstrained Open Vocabulary Image Classifier that uses an autoregressive transformer to generatively output classification labels as language. Leveraging the extensive knowledge of CLIP models, NOVIC harnesses the embedding space to enable zero-shot transfer from pure text to images. Traditional CLIP models, despite their ability for open vocabulary classification, require an exhaustive prompt of potential class labels, restricting their application to images of known content or context. To address this, we propose an "object decoder" model that is trained on a large-scale 92M-target dataset of templated object noun sets and LLM-generated captions to always output the object noun in question. This effectively inverts the CLIP text encoder and allows textual object labels from essentially the entire English language to be generated directly from image-derived embedding vectors, without requiring any a priori knowledge of the potential content of an image, and without any label biases. The trained decoders are tested on a mix of manually and web-curated datasets, as well as standard image classification benchmarks, and achieve fine-grained prompt-free prediction scores of up to 87.5%, a strong result considering the model must work for any conceivable image and without any contextual clues.