Generalized Fine-Grained Category Discovery with Multi-Granularity Conceptual Experts

📄 arXiv: 2509.26227v1 📥 PDF

作者: Haiyang Zheng, Nan Pu, Wenjing Li, Nicu Sebe, Zhun Zhong

分类: cs.CV

发布日期: 2025-09-30

🔗 代码/项目: GITHUB


💡 一句话要点

提出多粒度概念专家网络MGCE,解决广义细粒度类别发现问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 广义类别发现 细粒度识别 多粒度学习 概念挖掘 对比学习

📋 核心要点

  1. 现有广义类别发现方法难以有效利用视觉数据中蕴含的多粒度概念信息,导致表征学习质量受限。
  2. MGCE框架通过动态概念对比学习和多粒度专家协同学习,自适应地挖掘视觉概念并整合多粒度知识,实现更准确的类别发现。
  3. 实验结果表明,MGCE在多个细粒度视觉识别基准上取得了领先性能,尤其是在新类别识别方面有显著提升。

📝 摘要(中文)

广义类别发现(GCD)是一个开放世界问题,它利用部分标记类别的知识来聚类未标记数据。一个关键挑战是未标记数据可能包含已知和新类别。现有方法存在两个主要限制。首先,它们未能利用视觉数据中的多粒度概念信息,限制了表征质量。其次,大多数方法假设在训练期间已知未标记类别的数量,这在实际场景中是不切实际的。为了解决这些问题,我们提出了一种多粒度概念专家(MGCE)框架,该框架自适应地挖掘视觉概念并整合多粒度知识,以实现准确的类别发现。MGCE由两个模块组成:(1)动态概念对比学习(DCCL),它在概念挖掘和双层表征学习之间交替,以联合优化特征学习和类别发现;(2)多粒度专家协同学习(MECL),它通过引入不同粒度的额外专家,并采用概念对齐矩阵来实现有效的跨专家协作,从而扩展了单专家范式。重要的是,MGCE可以自动估计未标记数据中的类别数量,使其适用于实际的开放世界设置。在九个细粒度视觉识别基准上的大量实验表明,MGCE取得了最先进的结果,尤其是在新类别准确率方面。值得注意的是,即使在没有类别数量的先验知识的情况下,MGCE也优于需要知道确切类别数量的参数化方法,平均提高了3.6%。代码可在https://github.com/HaiyangZheng/MGCE获取。

🔬 方法详解

问题定义:广义细粒度类别发现(Generalized Fine-Grained Category Discovery, GCD)旨在利用部分标记数据,对包含已知类别和未知类别的数据进行聚类。现有方法的痛点在于无法充分利用图像中蕴含的多粒度概念信息,并且通常需要预先知道未知类别的数量,这在实际应用中是不现实的。

核心思路:MGCE的核心思路是通过挖掘和利用图像中的多粒度概念信息来提升特征表示的质量,并设计一种无需预知未知类别数量的自适应学习框架。通过动态的概念挖掘和专家协同学习,模型能够更好地理解图像内容,从而更准确地进行类别发现。

技术框架:MGCE框架主要包含两个模块:动态概念对比学习(DCCL)和多粒度专家协同学习(MECL)。DCCL模块交替进行概念挖掘和双层表征学习,以联合优化特征学习和类别发现。MECL模块引入多个不同粒度的专家,并通过概念对齐矩阵实现跨专家协作,从而扩展了传统的单专家范式。整个框架能够自动估计未标记数据中的类别数量。

关键创新:MGCE的关键创新在于:1) 提出了动态概念对比学习,能够自适应地挖掘视觉概念并进行对比学习,从而提升特征表示的质量。2) 引入了多粒度专家协同学习,通过不同粒度的专家协同工作,能够更全面地理解图像内容。3) 实现了无需预知未知类别数量的自适应类别发现,使其更适用于实际的开放世界场景。

关键设计:DCCL模块中,概念挖掘过程采用聚类算法(如K-means)来发现潜在的概念。双层表征学习包括实例级别的特征学习和概念级别的特征学习。MECL模块中,不同粒度的专家可以是不同的网络层或不同的预训练模型。概念对齐矩阵用于衡量不同专家提取的概念之间的相似度,并用于指导专家之间的信息传递。损失函数包括对比损失、聚类损失和对齐损失等,用于优化特征表示、类别聚类和专家协同。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MGCE在九个细粒度视觉识别基准上取得了state-of-the-art的结果,尤其是在新类别准确率方面表现突出。即使在没有类别数量的先验知识的情况下,MGCE也优于需要知道确切类别数量的参数化方法,平均提高了3.6%。这表明MGCE具有很强的泛化能力和实际应用价值。

🎯 应用场景

该研究成果可应用于智能相册管理、细粒度图像检索、商品识别、生物多样性分析等领域。通过自动发现图像中的类别信息,可以帮助用户更好地组织和管理图像数据,提高图像检索的准确率,并为相关领域的科学研究提供支持。未来,该技术有望在更多开放世界场景中发挥重要作用。

📄 摘要(原文)

Generalized Category Discovery (GCD) is an open-world problem that clusters unlabeled data by leveraging knowledge from partially labeled categories. A key challenge is that unlabeled data may contain both known and novel categories. Existing approaches suffer from two main limitations. First, they fail to exploit multi-granularity conceptual information in visual data, which limits representation quality. Second, most assume that the number of unlabeled categories is known during training, which is impractical in real-world scenarios. To address these issues, we propose a Multi-Granularity Conceptual Experts (MGCE) framework that adaptively mines visual concepts and integrates multi-granularity knowledge for accurate category discovery. MGCE consists of two modules: (1) Dynamic Conceptual Contrastive Learning (DCCL), which alternates between concept mining and dual-level representation learning to jointly optimize feature learning and category discovery; and (2) Multi-Granularity Experts Collaborative Learning (MECL), which extends the single-expert paradigm by introducing additional experts at different granularities and by employing a concept alignment matrix for effective cross-expert collaboration. Importantly, MGCE can automatically estimate the number of categories in unlabeled data, making it suitable for practical open-world settings. Extensive experiments on nine fine-grained visual recognition benchmarks demonstrate that MGCE achieves state-of-the-art results, particularly in novel-class accuracy. Notably, even without prior knowledge of category numbers, MGCE outperforms parametric approaches that require knowing the exact number of categories, with an average improvement of 3.6\%. Code is available at https://github.com/HaiyangZheng/MGCE.