StPR: Spatiotemporal Preservation and Routing for Exemplar-Free Video Class-Incremental Learning
作者: Huaijie Wang, De Cheng, Guozhang Li, Zhipeng Xu, Lingfeng He, Jie Li, Nannan Wang, Xinbo Gao
分类: cs.CV
发布日期: 2025-05-20 (更新: 2025-09-30)
💡 一句话要点
提出StPR框架,通过时空信息解耦与保持,解决免样本视频类增量学习问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation)
关键词: 视频类增量学习 免样本学习 时空信息解耦 语义蒸馏 混合专家网络
📋 核心要点
- 现有视频类增量学习方法依赖样本重放或忽略时间信息,面临内存隐私问题和时序建模不足的挑战。
- StPR框架解耦并保持视频中的时空信息,通过帧共享语义蒸馏和时间分解混合专家网络实现增量学习。
- 在UCF101、HMDB51和Kinetics400数据集上,StPR超越现有基线,同时提升了可解释性和效率。
📝 摘要(中文)
视频类增量学习(VCIL)旨在开发能够随时间持续学习新动作类别的模型,同时避免遗忘先前获得的知识。与传统的类增量学习(CIL)不同,VCIL引入了时空结构的复杂性,使得在有效捕获帧共享语义和时间动态的同时,减轻灾难性遗忘变得尤为困难。现有方法要么依赖于样本重放,引发对内存和隐私的担忧,要么采用忽略时间建模的静态图像方法。为了解决这些局限性,我们提出了时空保持和路由(StPR),一个统一的免样本VCIL框架,它显式地解耦和保持时空信息。首先,我们引入了帧共享语义蒸馏(FSSD),通过联合考虑语义敏感性和分类贡献来识别语义稳定且有意义的通道。选择性地正则化这些重要的语义通道,以保持先验知识,同时允许适应。其次,我们设计了一个基于时间分解的混合专家(TD-MoE),它根据其时间动态动态地路由特定于任务的专家,从而无需任务ID或存储的样本即可进行推理。StPR有效地利用了空间语义和时间动态,实现了一个统一的免样本VCIL框架。在UCF101、HMDB51和Kinetics400上的大量实验表明,我们的方法优于现有的基线,同时在VCIL中提供了更高的可解释性和效率。
🔬 方法详解
问题定义:视频类增量学习(VCIL)旨在让模型在不断学习新的视频动作类别时,不遗忘之前学习过的知识。现有方法主要存在两个痛点:一是依赖存储旧样本进行重放,造成存储压力和隐私泄露风险;二是直接将图像领域的增量学习方法应用于视频,忽略了视频的时序信息,导致性能下降。
核心思路:StPR的核心思路是将视频中的空间语义信息和时间动态信息进行解耦,并分别进行保持和利用。具体来说,通过帧共享语义蒸馏(FSSD)来保持重要的空间语义信息,防止灾难性遗忘;通过时间分解混合专家(TD-MoE)来动态路由任务特定的专家,从而利用时间动态信息进行推理。
技术框架:StPR框架主要包含两个模块:帧共享语义蒸馏(FSSD)和时间分解混合专家(TD-MoE)。FSSD模块负责提取和保持视频帧中共享的语义信息,通过语义敏感性和分类贡献来选择重要的通道进行正则化。TD-MoE模块负责根据视频的时间动态信息,动态地选择合适的专家进行推理,每个专家负责处理特定的时间模式。整体流程是,首先通过FSSD保持空间语义信息,然后通过TD-MoE利用时间动态信息进行分类。
关键创新:StPR的关键创新在于同时考虑了视频的空间语义信息和时间动态信息,并设计了相应的模块进行处理。FSSD模块通过语义敏感性和分类贡献来选择重要的通道,避免了对所有通道进行正则化,提高了效率。TD-MoE模块通过时间分解来动态路由专家,避免了对所有专家进行平均,提高了精度。此外,StPR是一个免样本的框架,避免了存储旧样本的压力和隐私泄露风险。
关键设计:FSSD模块的关键设计在于语义敏感性和分类贡献的计算方式。语义敏感性通过计算通道激活值的方差来衡量,分类贡献通过计算通道对分类结果的影响来衡量。TD-MoE模块的关键设计在于时间分解的方式,通过将时间序列分解成不同的频率成分,来捕捉不同的时间动态信息。损失函数主要包括分类损失和蒸馏损失,其中蒸馏损失用于保持旧知识。
🖼️ 关键图片
📊 实验亮点
在UCF101、HMDB51和Kinetics400数据集上的实验结果表明,StPR框架在免样本视频类增量学习任务上取得了显著的性能提升。例如,在UCF101数据集上,StPR的平均增量准确率比现有最佳方法高出5%以上。此外,StPR还具有更好的可解释性和效率,能够有效地缓解灾难性遗忘问题。
🎯 应用场景
StPR框架可应用于智能监控、自动驾驶、人机交互等领域,提升视频理解系统的持续学习能力。例如,在智能监控中,系统可以不断学习新的异常行为,而无需存储大量的历史视频数据。在自动驾驶中,系统可以不断学习新的交通场景,从而提高驾驶安全性。
📄 摘要(原文)
Video Class-Incremental Learning (VCIL) seeks to develop models that continuously learn new action categories over time without forgetting previously acquired knowledge. Unlike traditional Class-Incremental Learning (CIL), VCIL introduces the added complexity of spatiotemporal structures, making it particularly challenging to mitigate catastrophic forgetting while effectively capturing both frame-shared semantics and temporal dynamics. Existing approaches either rely on exemplar rehearsal, raising concerns over memory and privacy, or adapt static image-based methods that neglect temporal modeling. To address these limitations, we propose Spatiotemporal Preservation and Routing (StPR), a unified and exemplar-free VCIL framework that explicitly disentangles and preserves spatiotemporal information. First, we introduce Frame-Shared Semantics Distillation (FSSD), which identifies semantically stable and meaningful channels by jointly considering semantic sensitivity and classification contribution. These important semantic channels are selectively regularized to maintain prior knowledge while allowing for adaptation. Second, we design a Temporal Decomposition-based Mixture-of-Experts (TD-MoE), which dynamically routes task-specific experts based on their temporal dynamics, enabling inference without task ID or stored exemplars. Together, StPR effectively leverages spatial semantics and temporal dynamics, achieving a unified, exemplar-free VCIL framework. Extensive experiments on UCF101, HMDB51, and Kinetics400 show that our method outperforms existing baselines while offering improved interpretability and efficiency in VCIL. Code is available in the supplementary materials.