Efficient Vocabulary-Free Fine-Grained Visual Recognition in the Age of Multimodal LLMs

📄 arXiv: 2505.01064v1 📥 PDF

作者: Hari Chandana Kuchibhotla, Sai Srinivas Kancheti, Abbavaram Gowtham Reddy, Vineeth N Balasubramanian

分类: cs.CV, cs.LG

发布日期: 2025-05-02

备注: preprint; earlier version accepted at NeurIPS 2024 Workshop on Adaptive Foundation Models


💡 一句话要点

提出NeaR,利用MLLM生成标签微调CLIP模型,解决无词汇精细化视觉识别问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 精细化视觉识别 无词汇学习 多模态大语言模型 CLIP模型 弱监督学习

📋 核心要点

  1. 传统FGVR依赖大量标注数据,但在医学影像等领域获取成本高昂且受隐私限制,面临无标签数据挑战。
  2. NeaR利用MLLM生成弱监督标签,微调CLIP模型,有效应对MLLM标签的噪声和开放性问题。
  3. NeaR在VF-FGVR任务上建立了新的性能基准,为高效的无词汇精细化视觉识别提供了解决方案。

📝 摘要(中文)

精细化视觉识别(FGVR)旨在区分视觉上相似的类别,由于类间差异细微以及需要大量专家标注的数据集,这项任务极具挑战性。在医学影像等领域,由于隐私问题和高昂的标注成本,无法获得此类数据集。在缺乏标注数据的情况下,FGVR模型无法依赖预定义的训练标签集,因此预测具有不受约束的输出空间。我们将此任务称为无词汇FGVR (VF-FGVR),模型必须在没有先验标签信息的情况下,从不受约束的输出空间预测标签。虽然最近的多模态大型语言模型(MLLM)显示出VF-FGVR的潜力,但由于高成本和过长的推理时间,为每个测试输入查询这些模型是不切实际的。为了解决这些限制,我们引入了最近邻标签细化(NeaR),这是一种新颖的方法,它使用MLLM生成的标签来微调下游CLIP模型。我们的方法利用MLLM进行标签生成,从小型未标记的训练集中构建弱监督数据集。NeaR旨在处理MLLM生成的标签中固有的噪声、随机性和开放性,并为高效的VF-FGVR建立新的基准。

🔬 方法详解

问题定义:论文旨在解决无词汇精细化视觉识别(VF-FGVR)问题。现有FGVR方法依赖于大量标注数据,但在许多实际场景中,如医学影像,获取高质量标注数据成本高昂且面临隐私问题。直接使用MLLM进行VF-FGVR推理,虽然可行,但计算成本过高,推理速度慢,难以实际应用。

核心思路:论文的核心思路是利用MLLM的强大语义理解能力,为少量未标注数据生成伪标签,构建弱监督数据集,然后使用这些伪标签微调一个更高效的视觉模型(CLIP)。这样既能利用MLLM的知识,又能避免直接使用MLLM进行推理带来的高成本问题。

技术框架:NeaR方法主要包含两个阶段:1) 伪标签生成阶段:使用MLLM对少量未标注的训练数据生成伪标签。2) 模型微调阶段:使用生成的伪标签微调CLIP模型。具体来说,首先使用CLIP提取图像特征,然后利用MLLM将图像特征映射到文本描述,并生成相应的标签。接着,使用这些带噪声的标签训练CLIP模型,使其能够进行VF-FGVR。

关键创新:NeaR的关键创新在于它提出了一种利用MLLM生成弱监督标签,并用于微调下游视觉模型的方法,从而实现了高效的VF-FGVR。与直接使用MLLM进行推理相比,NeaR大大降低了计算成本和推理时间。此外,NeaR还考虑了MLLM生成标签的噪声和开放性问题,并设计了相应的训练策略来提高模型的鲁棒性。

关键设计:在伪标签生成阶段,论文可能采用了prompt engineering等技术来提高MLLM生成标签的质量。在模型微调阶段,可能使用了诸如标签平滑、对比学习等技术来提高模型的泛化能力和鲁棒性。具体的损失函数和网络结构细节需要在论文中进一步查找。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出了NeaR方法,利用MLLM生成标签微调CLIP模型,在无词汇精细化视觉识别任务上取得了显著成果。具体性能数据和对比基线需要在论文中查看,但整体而言,该方法在效率和精度上都优于直接使用MLLM进行推理的方法。

🎯 应用场景

该研究成果可应用于医学影像分析、生物物种识别、工业产品缺陷检测等领域,尤其是在缺乏标注数据的场景下。通过利用MLLM的知识,可以有效降低标注成本,提高识别精度,加速相关领域的智能化进程,具有重要的实际应用价值和广阔的应用前景。

📄 摘要(原文)

Fine-grained Visual Recognition (FGVR) involves distinguishing between visually similar categories, which is inherently challenging due to subtle inter-class differences and the need for large, expert-annotated datasets. In domains like medical imaging, such curated datasets are unavailable due to issues like privacy concerns and high annotation costs. In such scenarios lacking labeled data, an FGVR model cannot rely on a predefined set of training labels, and hence has an unconstrained output space for predictions. We refer to this task as Vocabulary-Free FGVR (VF-FGVR), where a model must predict labels from an unconstrained output space without prior label information. While recent Multimodal Large Language Models (MLLMs) show potential for VF-FGVR, querying these models for each test input is impractical because of high costs and prohibitive inference times. To address these limitations, we introduce \textbf{Nea}rest-Neighbor Label \textbf{R}efinement (NeaR), a novel approach that fine-tunes a downstream CLIP model using labels generated by an MLLM. Our approach constructs a weakly supervised dataset from a small, unlabeled training set, leveraging MLLMs for label generation. NeaR is designed to handle the noise, stochasticity, and open-endedness inherent in labels generated by MLLMs, and establishes a new benchmark for efficient VF-FGVR.