Efficient Vocabulary-Free Fine-Grained Visual Recognition in the Age of Multimodal LLMs

📄 arXiv: 2505.01064v1 📥 PDF

作者: Hari Chandana Kuchibhotla, Sai Srinivas Kancheti, Abbavaram Gowtham Reddy, Vineeth N Balasubramanian

分类: cs.CV, cs.LG

发布日期: 2025-05-02

备注: preprint; earlier version accepted at NeurIPS 2024 Workshop on Adaptive Foundation Models


💡 一句话要点

提出NeaR方法以解决无词汇细粒度视觉识别问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 细粒度视觉识别 无词汇学习 多模态大语言模型 弱监督学习 CLIP模型

📋 核心要点

  1. 细粒度视觉识别面临的主要挑战是缺乏足够的标注数据,尤其在医疗成像等领域。
  2. 提出的NeaR方法通过利用多模态大语言模型生成标签,构建弱监督数据集以解决无词汇FGVR问题。
  3. 实验结果表明,NeaR在VF-FGVR任务中建立了新的基准,显著提高了模型的识别性能。

📝 摘要(中文)

细粒度视觉识别(FGVR)涉及区分视觉上相似的类别,这一任务因类间微小差异和缺乏大规模专家标注数据集而变得极具挑战性。在医疗成像等领域,由于隐私问题和高昂的标注成本,难以获得经过精心策划的数据集。在缺乏标注数据的情况下,FGVR模型无法依赖预定义的训练标签,因此其输出空间是无约束的。我们将这一任务称为无词汇FGVR(VF-FGVR),模型必须在没有先前标签信息的情况下进行预测。尽管最近的多模态大语言模型(MLLMs)在VF-FGVR中显示出潜力,但对每个测试输入查询这些模型在成本和推理时间上都不切实际。为了解决这些限制,我们提出了最近邻标签细化(NeaR)方法,该方法通过MLLM生成的标签微调下游CLIP模型。我们的方案利用MLLMs生成标签,从小规模未标注训练集中构建弱监督数据集,NeaR旨在处理MLLM生成标签中的噪声和随机性,并为高效的VF-FGVR建立了新的基准。

🔬 方法详解

问题定义:本论文旨在解决无词汇细粒度视觉识别(VF-FGVR)问题,现有方法在缺乏标注数据的情况下难以进行有效的分类,尤其是在医疗成像等领域。

核心思路:论文提出的NeaR方法通过利用多模态大语言模型(MLLM)生成标签,从而构建一个弱监督的数据集,进而微调下游的CLIP模型,以应对无约束的输出空间。

技术框架:整体架构包括三个主要模块:首先,使用MLLM生成标签;其次,构建弱监督数据集;最后,微调CLIP模型以提高识别精度。

关键创新:NeaR方法的创新之处在于其能够有效处理MLLM生成标签中的噪声和随机性,建立了一种新的高效VF-FGVR基准,与传统方法相比,显著提升了模型的适应性和准确性。

关键设计:在设计上,NeaR采用了特定的损失函数来优化模型性能,并在网络结构上进行了调整,以适应无词汇标签的生成和处理。

📊 实验亮点

实验结果显示,NeaR方法在VF-FGVR任务中相较于传统方法提升了识别准确率,具体性能数据表明,模型在多个基准测试中均达到了新的最佳表现,显著降低了推理时间和成本。

🎯 应用场景

该研究的潜在应用领域包括医疗成像、自动驾驶、安防监控等需要高精度分类的场景。通过有效的无词汇细粒度视觉识别,能够在缺乏标注数据的情况下,提升模型的实际应用价值,推动相关领域的技术进步。

📄 摘要(原文)

Fine-grained Visual Recognition (FGVR) involves distinguishing between visually similar categories, which is inherently challenging due to subtle inter-class differences and the need for large, expert-annotated datasets. In domains like medical imaging, such curated datasets are unavailable due to issues like privacy concerns and high annotation costs. In such scenarios lacking labeled data, an FGVR model cannot rely on a predefined set of training labels, and hence has an unconstrained output space for predictions. We refer to this task as Vocabulary-Free FGVR (VF-FGVR), where a model must predict labels from an unconstrained output space without prior label information. While recent Multimodal Large Language Models (MLLMs) show potential for VF-FGVR, querying these models for each test input is impractical because of high costs and prohibitive inference times. To address these limitations, we introduce \textbf{Nea}rest-Neighbor Label \textbf{R}efinement (NeaR), a novel approach that fine-tunes a downstream CLIP model using labels generated by an MLLM. Our approach constructs a weakly supervised dataset from a small, unlabeled training set, leveraging MLLMs for label generation. NeaR is designed to handle the noise, stochasticity, and open-endedness inherent in labels generated by MLLMs, and establishes a new benchmark for efficient VF-FGVR.