Beyond Class Tokens: LLM-guided Dominant Property Mining for Few-shot Classification

📄 arXiv: 2507.20511v2 📥 PDF

作者: Wei Zhuo, Runjie Luo, Wufeng Xue, Linlin Shen

分类: cs.CV

发布日期: 2025-07-28 (更新: 2025-07-29)

备注: 11 pages, 7 figures


💡 一句话要点

提出BCT-CLIP,利用LLM指导挖掘主导属性,提升少样本分类性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 少样本学习 对比学习 大语言模型 属性挖掘 图像识别

📋 核心要点

  1. 现有少样本学习方法依赖类名嵌入,忽略了视觉多样性,限制了新类别判别的能力。
  2. BCT-CLIP利用LLM先验知识,挖掘图像的主导属性,构建全局类别和patch感知的属性嵌入。
  3. 实验结果表明,BCT-CLIP在多个数据集上表现优异,提升了判别性表示学习和少样本分类性能。

📝 摘要(中文)

由于数据稀缺,少样本学习(FSL)在识别新类别时面临泛化能力挑战。最近基于对比语言-图像预训练的CLIP类方法通过利用类名称的文本表示来发现未见过的图像,从而缓解了这个问题。尽管取得了成功,但简单地将视觉表示与类名称嵌入对齐会损害新类别判别的视觉多样性。为此,我们提出了一种新的少样本学习方法(BCT-CLIP),它通过对比学习探索主导属性,而不仅仅是使用类token。通过利用基于LLM的先验知识,我们的方法通过全面的结构化图像表示(包括全局类别表示和patch感知的属性嵌入)推进了FSL。特别地,我们提出了一种新的多属性生成器(MPG),它具有patch感知的交叉注意力,用于生成多个视觉属性token;一个基于大语言模型(LLM)辅助的检索过程,通过基于聚类的剪枝来获得主导属性描述;以及一种新的属性token学习的对比学习策略。在11个广泛使用的数据集上的优越性能表明,我们对主导属性的研究促进了判别性的类特定表示学习和少样本分类。

🔬 方法详解

问题定义:少样本学习旨在利用少量样本识别新类别,但现有方法如直接将视觉特征与类名文本嵌入对齐,忽略了图像的视觉多样性,导致判别能力下降。现有方法无法有效利用图像中更细粒度的属性信息,限制了模型的泛化能力。

核心思路:BCT-CLIP的核心思路是利用大语言模型(LLM)的先验知识,挖掘图像中更具判别性的“主导属性”,并将其融入到视觉表示中。通过学习类别级别的全局表示和patch级别的属性表示,增强模型的判别能力和泛化能力。这种方法旨在弥补类名嵌入的不足,充分利用图像的视觉信息。

技术框架:BCT-CLIP包含三个主要模块:多属性生成器(MPG)、LLM辅助的属性检索和对比学习策略。MPG利用patch感知的交叉注意力生成多个视觉属性token。LLM辅助的属性检索模块利用LLM生成候选属性描述,并通过聚类剪枝选择主导属性。对比学习策略用于学习属性token的表示,将视觉表示与主导属性对齐。整体流程为:输入图像,MPG生成属性token,LLM检索主导属性,最后通过对比学习优化模型。

关键创新:该方法最重要的创新点在于利用LLM的知识来指导属性挖掘,并将其融入到少样本学习中。与传统方法仅依赖类名嵌入不同,BCT-CLIP能够学习到更细粒度、更具判别性的图像属性表示。此外,提出的多属性生成器(MPG)和LLM辅助的属性检索模块也是关键创新,能够有效生成和选择主导属性。

关键设计:多属性生成器(MPG)采用patch感知的交叉注意力机制,允许模型关注图像的不同区域,并生成相应的属性token。LLM辅助的属性检索模块使用聚类算法对LLM生成的候选属性进行剪枝,选择最具代表性的主导属性。对比学习损失函数用于将视觉表示与主导属性对齐,鼓励模型学习判别性的属性表示。具体的参数设置和网络结构细节在论文中有详细描述,例如交叉注意力的具体实现方式,聚类算法的选择,以及对比学习损失函数的具体形式。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,BCT-CLIP在11个广泛使用的数据集上取得了优越的性能,显著优于现有的少样本学习方法。具体而言,BCT-CLIP在某些数据集上取得了超过5%的性能提升,证明了其有效性。消融实验也验证了各个模块的有效性,例如多属性生成器和LLM辅助的属性检索模块。

🎯 应用场景

该研究成果可应用于图像识别、目标检测等计算机视觉任务中,尤其是在数据稀缺的场景下,例如医学图像分析、罕见物种识别等。通过利用LLM的知识,可以有效提升模型在少样本情况下的泛化能力,降低对大量标注数据的依赖,具有重要的实际应用价值和潜力。

📄 摘要(原文)

Few-shot Learning (FSL), which endeavors to develop the generalization ability for recognizing novel classes using only a few images, faces significant challenges due to data scarcity. Recent CLIP-like methods based on contrastive language-image pertaining mitigate the issue by leveraging textual representation of the class name for unseen image discovery. Despite the achieved success, simply aligning visual representations to class name embeddings would compromise the visual diversity for novel class discrimination. To this end, we proposed a novel Few-Shot Learning (FSL) method (BCT-CLIP) that explores \textbf{dominating properties} via contrastive learning beyond simply using class tokens. Through leveraging LLM-based prior knowledge, our method pushes forward FSL with comprehensive structural image representations, including both global category representation and the patch-aware property embeddings. In particular, we presented a novel multi-property generator (MPG) with patch-aware cross-attentions to generate multiple visual property tokens, a Large-Language Model (LLM)-assistant retrieval procedure with clustering-based pruning to obtain dominating property descriptions, and a new contrastive learning strategy for property-token learning. The superior performances on the 11 widely used datasets demonstrate that our investigation of dominating properties advances discriminative class-specific representation learning and few-shot classification.