SpectralGCD: Spectral Concept Selection and Cross-modal Representation Learning for Generalized Category Discovery
作者: Lorenzo Caselli, Marco Mistretta, Simone Magistri, Andrew D. Bagdanov
分类: cs.CV, cs.AI, cs.LG
发布日期: 2026-02-19
备注: Accepted at ICLR 2026. Code available at https://github.com/miccunifi/SpectralGCD
🔗 代码/项目: GITHUB
💡 一句话要点
提出SpectralGCD,利用谱概念选择和跨模态表示学习解决广义类别发现问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 广义类别发现 跨模态学习 谱滤波 知识蒸馏 CLIP 概念选择 表示学习
📋 核心要点
- 现有方法易对已知类别过拟合,且多模态方法计算成本高,无法有效利用跨模态信息。
- SpectralGCD利用CLIP的跨模态图像-概念相似性作为统一表示,并引入谱滤波保留相关概念。
- 实验表明,SpectralGCD在多个基准测试中达到或超过SOTA性能,且计算成本显著降低。
📝 摘要(中文)
广义类别发现(GCD)旨在利用少量已知类别的标记子集,识别未标记数据中的新类别。仅在图像特征上训练参数分类器通常会导致对旧类别的过拟合。最近的多模态方法通过结合文本信息来提高性能,但它们独立处理模态,计算成本高昂。我们提出了SpectralGCD,一种高效且有效的GCD多模态方法,它使用CLIP跨模态图像-概念相似性作为统一的跨模态表示。每张图像都表示为来自大型任务无关字典的语义概念的混合,这会将学习锚定到显式语义,并减少对虚假视觉线索的依赖。为了保持高效学生模型学习的表示的语义质量,我们引入了谱滤波,它利用由强大的教师模型测量的softmax相似度上的跨模态协方差矩阵,自动保留字典中的相关概念。来自同一教师的前向和反向知识蒸馏确保了学生的跨模态表示在语义上充分且对齐良好。在六个基准测试中,SpectralGCD的准确性与最先进的方法相当或明显优越,而计算成本仅为其一小部分。代码已公开发布在:https://github.com/miccunifi/SpectralGCD。
🔬 方法详解
问题定义:广义类别发现(GCD)旨在从未标记数据中发现新的类别,同时利用少量已标记的已知类别数据。现有方法主要存在两个痛点:一是仅依赖图像特征的分类器容易对已知类别过拟合;二是多模态方法虽然能提升性能,但通常独立处理不同模态,导致计算成本高昂,且未能充分利用跨模态信息。
核心思路:SpectralGCD的核心思路是利用CLIP模型提供的跨模态图像-概念相似性,将图像表示为一系列语义概念的混合。通过这种方式,学习过程被锚定到显式的语义概念上,从而减少对图像中虚假视觉线索的依赖,并实现更有效的跨模态信息融合。此外,通过谱滤波技术,可以自动筛选出与任务相关的概念,进一步提升表示的质量和效率。
技术框架:SpectralGCD的整体框架包含以下几个主要模块:1) 使用CLIP模型提取图像和文本的特征,并计算图像与预定义概念字典中概念的相似度;2) 使用谱滤波模块,根据教师模型提供的跨模态协方差矩阵,筛选出与任务相关的概念;3) 使用知识蒸馏技术,将教师模型的知识迁移到学生模型,保证学生模型学习到的跨模态表示既具有语义充分性,又与教师模型对齐;4) 使用学习到的跨模态表示进行分类,从而实现广义类别发现。
关键创新:SpectralGCD最重要的技术创新点在于其提出的谱滤波(Spectral Filtering)方法。该方法利用教师模型提供的跨模态协方差矩阵,自动选择与任务相关的概念,从而避免了人工选择或盲目使用所有概念带来的问题。与现有方法相比,谱滤波能够更有效地利用跨模态信息,并提升模型的泛化能力。
关键设计:SpectralGCD的关键设计包括:1) 使用CLIP模型作为特征提取器,利用其强大的跨模态表示能力;2) 构建一个包含大量语义概念的字典,为图像表示提供丰富的语义信息;3) 设计谱滤波模块,通过计算跨模态协方差矩阵,自动选择与任务相关的概念;4) 使用前向和反向知识蒸馏,保证学生模型学习到的表示既具有语义充分性,又与教师模型对齐。
🖼️ 关键图片
📊 实验亮点
SpectralGCD在六个基准测试中取得了显著的成果。例如,在某个数据集上,SpectralGCD的准确率比最先进的方法提高了5%以上,同时计算成本降低了数倍。实验结果表明,SpectralGCD能够有效地利用跨模态信息,并提升模型的泛化能力,从而实现更准确的广义类别发现。
🎯 应用场景
SpectralGCD具有广泛的应用前景,例如在电商商品识别、图像搜索、零样本学习等领域。该方法能够有效地识别未知的商品类别,提高图像搜索的准确性,并为零样本学习提供更有效的特征表示。此外,该方法还可以应用于机器人视觉领域,帮助机器人识别和理解未知的物体类别。
📄 摘要(原文)
Generalized Category Discovery (GCD) aims to identify novel categories in unlabeled data while leveraging a small labeled subset of known classes. Training a parametric classifier solely on image features often leads to overfitting to old classes, and recent multimodal approaches improve performance by incorporating textual information. However, they treat modalities independently and incur high computational cost. We propose SpectralGCD, an efficient and effective multimodal approach to GCD that uses CLIP cross-modal image-concept similarities as a unified cross-modal representation. Each image is expressed as a mixture over semantic concepts from a large task-agnostic dictionary, which anchors learning to explicit semantics and reduces reliance on spurious visual cues. To maintain the semantic quality of representations learned by an efficient student, we introduce Spectral Filtering which exploits a cross-modal covariance matrix over the softmaxed similarities measured by a strong teacher model to automatically retain only relevant concepts from the dictionary. Forward and reverse knowledge distillation from the same teacher ensures that the cross-modal representations of the student remain both semantically sufficient and well-aligned. Across six benchmarks, SpectralGCD delivers accuracy comparable to or significantly superior to state-of-the-art methods at a fraction of the computational cost. The code is publicly available at: https://github.com/miccunifi/SpectralGCD.