STPro: Spatial and Temporal Progressive Learning for Weakly Supervised Spatio-Temporal Grounding

📄 arXiv: 2502.20678v2 📥 PDF

作者: Aaryan Garg, Akash Kumar, Yogesh S Rawat

分类: cs.CV

发布日期: 2025-02-28 (更新: 2025-04-05)

备注: CVPR'25 Conference


💡 一句话要点

STPro:时空渐进学习框架,用于弱监督时空视频定位

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 弱监督学习 时空视频定位 渐进学习 课程学习 视觉语言模型 视频理解 动作识别

📋 核心要点

  1. 现有方法在弱监督时空视频定位任务中,缺乏对复杂组合动作的理解和对密集场景的适应能力。
  2. STPro通过子动作时间课程学习和拥塞引导空间课程学习,实现对组合动作的渐进理解和对复杂场景的适应。
  3. STPro在三个基准数据集上取得了显著提升,证明了其在弱监督时空视频定位任务中的有效性。

📝 摘要(中文)

本文研究了弱监督时空视频定位(WSTVG)问题,这是一个具有挑战性的任务,旨在使用文本查询在视频中进行主体的时空定位,且不使用边界框监督。受到视觉-语言基础模型最新进展的启发,我们研究了它们在WSTVG中的效用,利用它们的零样本定位能力。然而,我们发现简单的适配缺乏必要的时空定位能力。为了弥补这一差距,我们引入了Tubelet Referral Grounding (TRG),它将文本查询连接到tubelet以实现时空预测。尽管TRG具有潜力,但它在组合动作理解和密集场景中表现不佳。为了解决这些限制,我们提出了一种新的渐进学习框架STPro,它包含两个关键模块:(1) 子动作时间课程学习(SA-TCL),它逐步构建组合动作理解;(2) 拥塞引导空间课程学习(CG-SCL),它通过在空间上增加任务难度来使模型适应复杂场景。STPro在三个基准数据集上取得了最先进的结果,在VidSTG-Declarative上提高了1.0%,在HCSTVG-v1上提高了3.0%。

🔬 方法详解

问题定义:弱监督时空视频定位(WSTVG)旨在仅使用文本查询,在没有边界框标注的情况下,定位视频中特定主体的时空位置。现有方法,特别是直接应用视觉-语言预训练模型的方法,在处理复杂动作组合和拥挤场景时表现不佳,无法准确建立文本查询和视频内容之间的时空对应关系。

核心思路:STPro的核心思路是采用渐进学习的方式,逐步提升模型对复杂动作和场景的理解能力。通过时间上的课程学习,模型先学习简单的子动作,再逐步学习复杂的组合动作。通过空间上的课程学习,模型先关注稀疏区域,再逐步适应拥挤区域。这种渐进式的学习方式有助于模型更好地学习到文本查询和视频内容之间的细粒度时空关系。

技术框架:STPro框架包含两个主要模块:子动作时间课程学习(SA-TCL)和拥塞引导空间课程学习(CG-SCL)。首先,SA-TCL模块将视频中的动作分解为多个子动作,并按照子动作的复杂度递增的顺序进行训练。然后,CG-SCL模块根据场景的拥塞程度,逐步增加空间定位的难度。这两个模块协同工作,共同提升模型在复杂场景下的时空定位能力。整体流程是:输入视频和文本查询,经过Tubelet Referral Grounding (TRG)初步建立文本和视频片段的关联,然后通过SA-TCL和CG-SCL进行优化,最终输出时空定位结果。

关键创新:STPro的关键创新在于提出了渐进式的时空学习框架,通过时间课程学习和空间课程学习,有效地解决了现有方法在处理复杂动作和拥挤场景时的不足。SA-TCL模块通过分解动作并逐步学习,提高了模型对组合动作的理解能力。CG-SCL模块通过引导模型关注不同拥塞程度的区域,提高了模型对复杂场景的适应能力。与直接应用预训练模型或简单地进行微调的方法相比,STPro能够更有效地利用弱监督信息,学习到更鲁棒的时空表示。

关键设计:SA-TCL模块的关键设计在于如何定义子动作的复杂度,并设计合适的课程学习策略。CG-SCL模块的关键设计在于如何衡量场景的拥塞程度,并根据拥塞程度调整空间定位的难度。具体的损失函数设计可能包括对比损失、交叉熵损失等,用于约束模型学习到正确的时空对应关系。网络结构方面,可能采用Transformer或类似的注意力机制,用于建模文本查询和视频内容之间的关系。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

STPro在三个基准数据集上取得了最先进的结果。在VidSTG-Declarative数据集上,STPro的性能提升了1.0%。在HCSTVG-v1数据集上,STPro的性能提升了3.0%。这些结果表明,STPro提出的渐进学习框架能够有效地提升弱监督时空视频定位的性能,尤其是在处理复杂动作和拥挤场景时。

🎯 应用场景

STPro技术可应用于视频监控、智能安防、人机交互、自动驾驶等领域。例如,在视频监控中,可以通过文本查询快速定位特定事件发生的时间和地点。在人机交互中,可以根据用户的语音指令,在视频中找到对应的物体或人物。该研究有助于提升机器对视频内容的理解能力,实现更智能化的视频分析和应用。

📄 摘要(原文)

In this work we study Weakly Supervised Spatio-Temporal Video Grounding (WSTVG), a challenging task of localizing subjects spatio-temporally in videos using only textual queries and no bounding box supervision. Inspired by recent advances in vision-language foundation models, we investigate their utility for WSTVG, leveraging their zero-shot grounding capabilities. However, we find that a simple adaptation lacks essential spatio-temporal grounding abilities. To bridge this gap, we introduce Tubelet Referral Grounding (TRG), which connects textual queries to tubelets to enable spatio-temporal predictions. Despite its promise, TRG struggles with compositional action understanding and dense scene scenarios. To address these limitations, we propose STPro, a novel progressive learning framework with two key modules: (1) Sub-Action Temporal Curriculum Learning (SA-TCL), which incrementally builds compositional action understanding, and (2) Congestion-Guided Spatial Curriculum Learning (CG-SCL), which adapts the model to complex scenes by spatially increasing task difficulty. STPro achieves state-of-the-art results on three benchmark datasets, with improvements of 1.0% on VidSTG-Declarative and 3.0% on HCSTVG-v1.