Full-Stage Pseudo Label Quality Enhancement for Weakly-supervised Temporal Action Localization

📄 arXiv: 2407.08971v1 📥 PDF

作者: Qianhan Feng, Wenshuo Li, Tong Lin, Xinghao Chen

分类: cs.CV

发布日期: 2024-07-12


💡 一句话要点

提出FuSTAL框架,通过多阶段伪标签质量增强提升弱监督时序动作定位性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 弱监督学习 时序动作定位 伪标签学习 对比学习 知识蒸馏

📋 核心要点

  1. 现有WSTAL方法依赖伪标签学习,但伪标签质量不高,限制了模型性能。
  2. FuSTAL框架通过跨视频对比学习、先验过滤和EMA蒸馏,多阶段增强伪标签质量。
  3. FuSTAL在THUMOS'14数据集上mAP达到50.8%,超越现有最佳方法1.2%。

📝 摘要(中文)

本文提出了一种名为FuSTAL的框架,用于提升弱监督时序动作定位(WSTAL)任务中的伪标签质量。WSTAL旨在仅利用视频级别的监督信息在未分割的视频中定位动作。最新的WSTAL方法引入了伪标签学习框架,以弥合基于分类的训练和基于定位的推理目标之间的差距,并取得了领先成果。然而,这些框架中伪标签的质量,作为最终结果的关键因素,并未得到充分研究。FuSTAL框架通过在三个阶段采用简单而有效的伪标签质量增强机制来解决这个问题:在proposal生成阶段进行跨视频对比学习,在proposal选择阶段进行基于先验的过滤,以及在训练阶段进行基于EMA的知识蒸馏。这些设计在框架的不同阶段增强了伪标签的质量,并有助于生成信息更丰富、错误更少、更平滑的动作proposal。FuSTAL在THUMOS'14数据集上实现了50.8%的平均mAP,超过了之前最好的方法1.2%,成为第一个达到50%里程碑的方法。

🔬 方法详解

问题定义:弱监督时序动作定位(WSTAL)旨在仅使用视频级别的标签来定位未分割视频中的动作片段。现有方法通常采用伪标签学习框架,但生成的伪标签质量不高,包含噪声,导致学生模型学习效果不佳,最终影响定位精度。如何提升伪标签的质量是WSTAL中的一个关键问题。

核心思路:本文的核心思路是通过在伪标签生成、选择和训练三个阶段引入不同的增强机制,从而全面提升伪标签的质量。具体来说,利用跨视频对比学习生成更可靠的proposal,利用先验知识过滤掉错误的proposal,并利用EMA(指数移动平均)进行知识蒸馏,生成更平滑的伪标签。

技术框架:FuSTAL框架包含三个主要阶段:Proposal生成阶段、Proposal选择阶段和训练阶段。在Proposal生成阶段,使用基于分类的模型生成初始的动作proposal。然后,在Proposal选择阶段,利用先验知识对proposal进行过滤,去除质量较差的proposal。最后,在训练阶段,使用高质量的伪标签训练基于回归的学生模型。

关键创新:FuSTAL的关键创新在于其多阶段的伪标签质量增强机制。与以往只关注单个阶段的伪标签改进方法不同,FuSTAL从proposal生成、选择和训练三个阶段入手,全面提升伪标签的质量,从而显著提升了WSTAL的性能。

关键设计:在Proposal生成阶段,采用跨视频对比学习,鼓励模型学习区分不同动作类别的特征表示。在Proposal选择阶段,利用动作的持续时间、置信度等先验信息,设计了过滤规则。在训练阶段,使用EMA更新教师模型的参数,并利用教师模型生成的伪标签指导学生模型的学习。损失函数包括分类损失、回归损失和对比学习损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

FuSTAL在THUMOS'14数据集上取得了显著的性能提升,mAP达到了50.8%,超过了之前最好的方法1.2%,成为第一个在该数据集上达到50% mAP的方法。这一结果表明,FuSTAL提出的多阶段伪标签质量增强机制能够有效地提升WSTAL的性能。

🎯 应用场景

该研究成果可应用于视频监控、智能安防、视频内容分析等领域,例如自动检测异常行为、识别视频中的关键事件、以及为视频内容生成更精确的标签。通过提升弱监督时序动作定位的性能,可以降低对人工标注数据的依赖,从而降低成本并提高效率。未来,该方法可以扩展到其他时序动作相关的任务中。

📄 摘要(原文)

Weakly-supervised Temporal Action Localization (WSTAL) aims to localize actions in untrimmed videos using only video-level supervision. Latest WSTAL methods introduce pseudo label learning framework to bridge the gap between classification-based training and inferencing targets at localization, and achieve cutting-edge results. In these frameworks, a classification-based model is used to generate pseudo labels for a regression-based student model to learn from. However, the quality of pseudo labels in the framework, which is a key factor to the final result, is not carefully studied. In this paper, we propose a set of simple yet efficient pseudo label quality enhancement mechanisms to build our FuSTAL framework. FuSTAL enhances pseudo label quality at three stages: cross-video contrastive learning at proposal Generation-Stage, prior-based filtering at proposal Selection-Stage and EMA-based distillation at Training-Stage. These designs enhance pseudo label quality at different stages in the framework, and help produce more informative, less false and smoother action proposals. With the help of these comprehensive designs at all stages, FuSTAL achieves an average mAP of 50.8% on THUMOS'14, outperforming the previous best method by 1.2%, and becomes the first method to reach the milestone of 50%.