Multi-Modal Representation Learning via Semi-Supervised Rate Reduction for Generalized Category Discovery

作者: Wei He, Xianghan Meng, Zhiyuan Huang, Xianbiao Qi, Rong Xiao, Chun-Guang Li

分类: cs.CV

发布日期: 2026-02-23

备注: 15 pages, accepted by CVPR 2026

💡 一句话要点

提出SSR²-GCD框架，通过半监督速率降低实现多模态表征学习，用于广义类别发现。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 广义类别发现 多模态学习 半监督学习 速率降低 视觉语言模型 Prompt学习 开放集识别

📋 核心要点

广义类别发现（GCD）旨在识别已知和未知类别，仅为已知类别提供部分标签，这是一个具有挑战性的开放集识别问题。
SSR²-GCD框架通过半监督速率降低，学习具有所需结构属性的跨模态表征，强调模态内关系的对齐。
通过集成prompt候选，利用视觉语言模型提供的模态间对齐，促进知识迁移，并在多个数据集上取得了优越的性能。

📝 摘要（中文）

本文提出了一种新颖有效的多模态表征学习框架，用于广义类别发现（GCD），称为SSR²-GCD，该框架通过半监督速率降低来学习具有所需结构属性的跨模态表征，重点在于适当地对齐模态内关系。此外，为了促进知识迁移，我们利用视觉语言模型提供的模态间对齐，集成了prompt候选。在通用和细粒度基准数据集上进行了大量实验，证明了我们方法的优越性能。

🔬 方法详解

问题定义：广义类别发现（GCD）任务旨在同时识别已知和未知类别，但仅有部分已知类别的标签可用。现有的多模态GCD方法严重依赖于模态间的对齐，而忽略了模态内部的结构信息，导致表征分布不理想。

核心思路：本文的核心思路是通过半监督速率降低（Semi-Supervised Rate Reduction）来学习多模态表征，从而在模态内部实现更好的对齐，生成期望的表征分布结构。同时，利用视觉语言模型（VLM）的模态间对齐能力，通过prompt学习促进知识迁移。

技术框架：SSR²-GCD框架主要包含以下几个模块：1) 多模态特征提取模块，用于提取图像和文本等不同模态的特征；2) 半监督速率降低模块，通过最小化表征的互信息，学习紧凑且具有良好结构的表征；3) Prompt学习模块，利用VLM的模态间对齐能力，生成prompt候选，并选择合适的prompt来指导表征学习；4) 分类模块，基于学习到的表征进行已知和未知类别的分类。

关键创新：该论文的关键创新在于：1) 提出了半监督速率降低方法，用于在模态内部实现更好的表征对齐，从而生成期望的表征分布结构；2) 利用视觉语言模型（VLM）的模态间对齐能力，通过prompt学习促进知识迁移。与现有方法相比，该方法更加注重模态内部的结构信息，并能够有效地利用VLM的知识。

关键设计：在半监督速率降低模块中，使用了互信息最小化作为损失函数，以学习紧凑且具有良好结构的表征。Prompt学习模块中，通过计算prompt候选与图像/文本特征之间的相似度，选择合适的prompt来指导表征学习。具体的网络结构和参数设置在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

该论文在通用和细粒度基准数据集上进行了大量实验，结果表明，所提出的SSR²-GCD框架在GCD任务上取得了优越的性能。具体而言，在多个数据集上，该方法相比于现有方法，在准确率和召回率等指标上均有显著提升，证明了其有效性和优越性。

🎯 应用场景

该研究成果可应用于图像分类、目标检测、自然语言处理等领域，尤其是在开放集识别和零样本学习等场景下具有重要价值。例如，可以用于识别监控视频中的异常行为、电商平台上的新型商品，以及社交媒体上的新兴话题等。该研究有助于提升人工智能系统的鲁棒性和泛化能力。

📄 摘要（原文）

Generalized Category Discovery (GCD) aims to identify both known and unknown categories, with only partial labels given for the known categories, posing a challenging open-set recognition problem. State-of-the-art approaches for GCD task are usually built on multi-modality representation learning, which is heavily dependent upon inter-modality alignment. However, few of them cast a proper intra-modality alignment to generate a desired underlying structure of representation distributions. In this paper, we propose a novel and effective multi-modal representation learning framework for GCD via Semi-Supervised Rate Reduction, called SSR$^2$-GCD, to learn cross-modality representations with desired structural properties based on emphasizing to properly align intra-modality relationships. Moreover, to boost knowledge transfer, we integrate prompt candidates by leveraging the inter-modal alignment offered by Vision Language Models. We conduct extensive experiments on generic and fine-grained benchmark datasets demonstrating superior performance of our approach.

Multi-Modal Representation Learning via Semi-Supervised Rate Reduction for Generalized Category Discovery

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理