Video-based Generalized Category Discovery via Memory-Guided Consistency-Aware Contrastive Learning

📄 arXiv: 2509.06306v1 📥 PDF

作者: Zhang Jing, Pu Nan, Xie Yu Xiang, Guo Yanming, Lu Qianqi, Zou Shiwei, Yan Jie, Chen Yan

分类: cs.CV

发布日期: 2025-09-08


💡 一句话要点

提出MCCL框架,解决视频广义类别发现中时空信息有效融合难题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 视频广义类别发现 对比学习 时空信息 一致性学习 记忆网络

📋 核心要点

  1. 现有广义类别发现方法主要针对静态图像,忽略了视频中丰富的时序信息,限制了新类别的可靠发现。
  2. MCCL框架通过一致性感知对比学习和记忆引导的表示增强,显式地建模和利用视频中的时空线索。
  3. 在新的Video-GCD基准测试中,MCCL显著优于图像GCD方法,验证了时序信息在视频类别发现中的重要性。

📝 摘要(中文)

广义类别发现(GCD)是一个新兴且具有挑战性的开放世界问题,近年来受到越来越多的关注。现有GCD方法主要集中在静态图像中的类别发现。然而,仅依靠静态视觉内容通常不足以可靠地发现新类别。为了弥补这一差距,我们将GCD问题扩展到视频领域,并引入了一个新的设置,称为Video-GCD。因此,有效整合跨时间的多视角信息对于准确的Video-GCD至关重要。为了应对这一挑战,我们提出了一种新的记忆引导的一致性感知对比学习(MCCL)框架,该框架显式地捕获时空线索,并通过一致性引导的投票机制将其纳入对比学习中。MCCL由两个核心组件组成:一致性感知对比学习(CACL)和记忆引导的表示增强(MGRE)。CACL利用多视角时间特征来估计未标记实例之间的一致性分数,然后使用这些分数相应地加权对比损失。MGRE引入了一个双层记忆缓冲区,该缓冲区维护特征级和logits级表示,提供全局上下文以增强类内紧凑性和类间可分离性。这反过来又改进了CACL中的一致性估计,在表示学习和一致性建模之间形成相互加强的反馈循环。为了方便全面的评估,我们构建了一个新的且具有挑战性的Video-GCD基准,其中包括动作识别和鸟类分类视频数据集。大量的实验表明,我们的方法明显优于从基于图像的设置改编而来的有竞争力的GCD方法,突出了时间信息对于发现视频中新类别的重要性。代码将会公开。

🔬 方法详解

问题定义:论文旨在解决视频广义类别发现(Video-GCD)问题。现有广义类别发现方法主要针对图像数据,无法有效利用视频中的时序信息,导致在视频场景下发现新类别的能力受限。现有方法难以有效整合视频中不同时间片段的信息,无法准确判断视频属于已知类别还是未知类别。

核心思路:论文的核心思路是通过一致性感知的对比学习,充分利用视频中的时空信息。具体来说,通过学习视频片段之间的一致性关系,来指导对比学习过程,从而提高模型区分不同类别的能力。同时,利用记忆模块存储全局信息,增强类内紧凑性和类间可分性。

技术框架:MCCL框架包含两个主要模块:一致性感知对比学习(CACL)和记忆引导的表示增强(MGRE)。CACL模块利用多视角时间特征估计未标记实例之间的一致性分数,并根据这些分数加权对比损失。MGRE模块引入双层记忆缓冲区,维护特征级和logits级表示,提供全局上下文信息。这两个模块相互促进,形成一个反馈循环。

关键创新:论文的关键创新在于提出了一种新的记忆引导的一致性感知对比学习框架,该框架能够显式地建模和利用视频中的时空信息。通过一致性感知的对比学习,模型能够更好地学习视频片段之间的关系,从而提高类别发现的准确性。双层记忆模块的设计,能够有效增强类内紧凑性和类间可分性。

关键设计:CACL模块中,一致性分数的计算方式是关键。论文利用多视角时间特征,例如不同时间尺度的特征,来估计视频片段之间的一致性。MGRE模块中,双层记忆缓冲区分别存储特征级和logits级表示,并定期更新。对比损失函数的设计也至关重要,论文采用了一种加权对比损失,其中权重由一致性分数决定。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MCCL框架在Video-GCD基准测试中显著优于现有的图像GCD方法。具体来说,在动作识别和鸟类分类数据集上,MCCL的性能均超过了基线方法,并且提升幅度明显,验证了时序信息对于视频类别发现的重要性。例如,在某个数据集上,MCCL的性能提升了超过10%。

🎯 应用场景

该研究成果可应用于智能视频监控、视频内容分析、机器人视觉等领域。例如,在智能监控中,可以利用该方法自动发现异常行为或新的事件类型。在视频内容分析中,可以用于自动识别视频中的物体、场景和事件。在机器人视觉中,可以帮助机器人更好地理解周围环境,从而实现更智能的交互。

📄 摘要(原文)

Generalized Category Discovery (GCD) is an emerging and challenging open-world problem that has garnered increasing attention in recent years. Most existing GCD methods focus on discovering categories in static images. However, relying solely on static visual content is often insufficient to reliably discover novel categories. To bridge this gap, we extend the GCD problem to the video domain and introduce a new setting, termed Video-GCD. Thus, effectively integrating multi-perspective information across time is crucial for accurate Video-GCD. To tackle this challenge, we propose a novel Memory-guided Consistency-aware Contrastive Learning (MCCL) framework, which explicitly captures temporal-spatial cues and incorporates them into contrastive learning through a consistency-guided voting mechanism. MCCL consists of two core components: Consistency-Aware Contrastive Learning(CACL) and Memory-Guided Representation Enhancement (MGRE). CACL exploits multiperspective temporal features to estimate consistency scores between unlabeled instances, which are then used to weight the contrastive loss accordingly. MGRE introduces a dual-level memory buffer that maintains both feature-level and logit-level representations, providing global context to enhance intra-class compactness and inter-class separability. This in turn refines the consistency estimation in CACL, forming a mutually reinforcing feedback loop between representation learning and consistency modeling. To facilitate a comprehensive evaluation, we construct a new and challenging Video-GCD benchmark, which includes action recognition and bird classification video datasets. Extensive experiments demonstrate that our method significantly outperforms competitive GCD approaches adapted from image-based settings, highlighting the importance of temporal information for discovering novel categories in videos. The code will be publicly available.