Vocabulary-free Fine-grained Visual Recognition via Enriched Contextually Grounded Vision-Language Model

作者: Dmitry Demidov, Zaigham Zaheer, Omkar Thawakar, Salman Khan, Fahad Shahbaz Khan

分类: cs.CV

发布日期: 2025-07-30

备注: Accepted to ICCV 2025

🔗 代码/项目: GITHUB

💡 一句话要点

提出E-FineR，一种基于上下文增强视觉-语言模型的免词汇细粒度图像识别方法。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 细粒度图像识别 视觉-语言模型 大型语言模型 免词汇学习 零样本学习 少样本学习 上下文增强

📋 核心要点

现有细粒度图像识别方法依赖预定义词汇表，难以适应新类别涌现的实际场景。
E-FineR利用大型语言模型在分类阶段的能力，并对LLM提供的类别名称进行深入分析和优化。
E-FineR在细粒度视觉识别中取得了SOTA结果，同时具有更强的可解释性，且适用于零样本和少样本分类。

📝 摘要（中文）

细粒度图像分类旨在区分广义类别中视觉上相似的子类别。传统方法严重依赖固定词汇表和封闭集分类，限制了其在实际场景中的可扩展性和适应性。本文提出了一种免训练的方法，名为Enriched-FineR (E-FineR)，它结合大型语言模型(LLM)和视觉-语言模型(VLM)，实现了最先进的细粒度视觉识别结果，并具有更强的可解释性。E-FineR在零样本和少样本分类中也表现出色，性能与现有SOTA方法相当，且无需训练和人工干预。该免词汇框架将图像分类从刚性的标签预测转变为灵活的、语言驱动的理解，从而实现可扩展和通用的实际应用系统。

🔬 方法详解

问题定义：细粒度图像分类旨在区分视觉上相似的子类别，例如不同品种的鸟类或汽车型号。现有方法依赖于预定义的类别标签和固定词汇表，这限制了它们在实际应用中的可扩展性，因为现实世界中经常出现新的、未知的类别。此外，现有方法在分类阶段对大型语言模型（LLM）的利用不足，并且过度依赖LLM猜测的类别名称，缺乏深入的分析和优化。

核心思路：E-FineR的核心思路是利用视觉-语言模型（VLM）的强大能力，结合LLM的知识，在不需要预定义词汇表的情况下进行细粒度图像分类。通过上下文增强和类别名称优化，E-FineR能够更准确地识别图像中的细粒度类别。这种设计旨在克服传统方法的局限性，提高模型在开放环境中的泛化能力。

技术框架：E-FineR的整体框架包含以下几个主要阶段：1) 使用VLM提取图像的视觉特征；2) 使用LLM生成候选类别名称；3) 对候选类别名称进行上下文增强和优化，例如通过LLM生成更详细的描述或使用知识图谱进行关联；4) 使用VLM计算图像视觉特征与增强后的类别名称文本描述之间的相似度；5) 选择相似度最高的类别作为最终的预测结果。

关键创新：E-FineR的关键创新在于其免词汇的分类方式，以及对LLM生成类别名称的上下文增强和优化。传统方法需要预先定义所有可能的类别，而E-FineR可以根据图像内容动态地生成候选类别，并利用LLM的知识来完善这些类别。这种方法使得模型能够适应新的、未知的类别，提高了模型的泛化能力。

关键设计：E-FineR的关键设计包括：1) 使用CLIP等预训练的VLM作为视觉特征提取器；2) 使用GPT-3等大型语言模型生成候选类别名称和进行上下文增强；3) 设计合适的相似度计算方法，例如余弦相似度，来衡量图像视觉特征与类别文本描述之间的匹配程度；4) 可以使用不同的prompt engineering技术来引导LLM生成更准确的类别名称和描述。

🖼️ 关键图片

📊 实验亮点

E-FineR在细粒度图像识别任务中取得了SOTA结果，无需训练即可达到与现有监督学习方法相当的性能。在零样本和少样本分类任务中，E-FineR也表现出色，证明了其强大的泛化能力。代码已开源，方便研究人员复现和进一步研究。

🎯 应用场景

E-FineR在多个领域具有广泛的应用前景，例如生物多样性监测（识别不同物种）、产品识别（识别不同型号的商品）、医学图像分析（识别不同类型的疾病）等。该方法无需人工标注，降低了数据获取成本，并能够适应不断变化的类别，具有很高的实际应用价值。未来，E-FineR可以与其他技术结合，例如主动学习和持续学习，进一步提高模型的性能和适应性。

📄 摘要（原文）

Fine-grained image classification, the task of distinguishing between visually similar subcategories within a broader category (e.g., bird species, car models, flower types), is a challenging computer vision problem. Traditional approaches rely heavily on fixed vocabularies and closed-set classification paradigms, limiting their scalability and adaptability in real-world settings where novel classes frequently emerge. Recent research has demonstrated that combining large language models (LLMs) with vision-language models (VLMs) makes open-set recognition possible without the need for predefined class labels. However, the existing methods are often limited in harnessing the power of LLMs at the classification phase, and also rely heavily on the guessed class names provided by an LLM without thorough analysis and refinement. To address these bottlenecks, we propose our training-free method, Enriched-FineR (or E-FineR for short), which demonstrates state-of-the-art results in fine-grained visual recognition while also offering greater interpretability, highlighting its strong potential in real-world scenarios and new domains where expert annotations are difficult to obtain. Additionally, we demonstrate the application of our proposed approach to zero-shot and few-shot classification, where it demonstrated performance on par with the existing SOTA while being training-free and not requiring human interventions. Overall, our vocabulary-free framework supports the shift in image classification from rigid label prediction to flexible, language-driven understanding, enabling scalable and generalizable systems for real-world applications. Well-documented code is available on https://github.com/demidovd98/e-finer.

Vocabulary-free Fine-grained Visual Recognition via Enriched Contextually Grounded Vision-Language Model

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理