Flow-Assisted Motion Learning Network for Weakly-Supervised Group Activity Recognition
作者: Muhammad Adi Nugroho, Sangmin Woo, Sumin Lee, Jinyoung Park, Yooseung Wang, Donguk Kim, Changick Kim
分类: cs.CV, eess.IV
发布日期: 2024-05-28
💡 一句话要点
提出Flaming-Net,利用光流辅助的运动学习网络解决弱监督群体活动识别问题。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 弱监督学习 群体活动识别 光流 运动学习 关系建模
📋 核心要点
- 弱监督群体活动识别任务缺乏个体级别的标注,难以准确建模个体行为和群体交互。
- Flaming-Net利用光流信息辅助训练,增强模型对运动信息的感知能力,从而更好地识别活跃个体。
- Flaming-Net在NBA等数据集上取得了显著的性能提升,MPCA指标提升了2.8个百分点,达到新的SOTA。
📝 摘要(中文)
本文提出了一种用于弱监督群体活动识别(WSGAR)的Flow-Assisted Motion Learning Network (Flaming-Net)。WSGAR旨在仅使用视频级别的标签,无需个体级别的标签,来理解一群人共同执行的活动。Flaming-Net包含一个运动感知的参与者编码器,用于提取参与者的特征,以及一个双路径关系模块,用于推断参与者之间的交互及其活动。Flaming-Net在训练阶段利用额外的光流模态来增强其运动感知能力,从而找到局部活跃的参与者。关系模块的第一条路径,即以参与者为中心的路径,首先捕获单个参与者的时间动态,然后构建参与者之间的关系。并行地,以群体为中心的路径首先构建同一时间帧内参与者之间的空间连接,然后捕获它们之间同步的时空动态。实验表明,Flaming-Net在两个基准数据集上取得了新的state-of-the-art WSGAR结果,在NBA数据集上MPCA得分提高了2.8个百分点。重要的是,我们仅在训练中使用光流模态,而不是在推理中使用。
🔬 方法详解
问题定义:弱监督群体活动识别(WSGAR)旨在仅使用视频级别的标签来识别群体活动,而缺乏个体级别的标注。现有的方法难以准确建模个体行为和群体交互,导致识别精度不高。如何有效地利用视频中的运动信息,在弱监督的条件下学习个体和群体之间的关系,是该领域的一个挑战。
核心思路:Flaming-Net的核心思路是利用光流信息来辅助模型学习运动特征,从而增强模型对个体行为的感知能力。通过在训练阶段引入光流模态,模型可以更好地关注局部活跃的个体,并学习个体之间的交互关系。在推理阶段,则不需要光流信息,从而保证了模型的效率。
技术框架:Flaming-Net主要包含两个模块:运动感知的参与者编码器和双路径关系模块。运动感知的参与者编码器用于提取个体的运动特征,并利用光流信息增强特征表达。双路径关系模块包含两条路径:以参与者为中心的路径和以群体为中心的路径。以参与者为中心的路径首先捕获个体的时间动态,然后构建个体之间的关系;以群体为中心的路径首先构建同一时间帧内个体之间的空间连接,然后捕获它们之间同步的时空动态。
关键创新:Flaming-Net的关键创新在于利用光流信息辅助训练,增强模型对运动信息的感知能力。与现有方法不同,Flaming-Net不是直接将光流作为输入,而是在训练阶段利用光流来引导模型学习更好的运动特征。这种方法可以在不增加推理复杂度的前提下,显著提高模型的性能。
关键设计:Flaming-Net的关键设计包括:1) 使用光流信息增强参与者编码器的特征表达;2) 设计双路径关系模块,分别从个体和群体的角度建模关系;3) 仅在训练阶段使用光流信息,保证推理效率。具体的网络结构和损失函数等细节未在摘要中详细描述,属于未知信息。
🖼️ 关键图片
📊 实验亮点
Flaming-Net在两个基准数据集上取得了新的state-of-the-art WSGAR结果,在NBA数据集上MPCA得分提高了2.8个百分点。该结果表明,利用光流辅助的运动学习网络可以有效地提高弱监督群体活动识别的性能。
🎯 应用场景
该研究成果可应用于视频监控、体育赛事分析、智能交通等领域。例如,在视频监控中,可以用于自动识别人群中的异常行为;在体育赛事分析中,可以用于分析运动员之间的配合和战术;在智能交通中,可以用于识别交通参与者的行为模式,提高交通安全。
📄 摘要(原文)
Weakly-Supervised Group Activity Recognition (WSGAR) aims to understand the activity performed together by a group of individuals with the video-level label and without actor-level labels. We propose Flow-Assisted Motion Learning Network (Flaming-Net) for WSGAR, which consists of the motion-aware actor encoder to extract actor features and the two-pathways relation module to infer the interaction among actors and their activity. Flaming-Net leverages an additional optical flow modality in the training stage to enhance its motion awareness when finding locally active actors. The first pathway of the relation module, the actor-centric path, initially captures the temporal dynamics of individual actors and then constructs inter-actor relationships. In parallel, the group-centric path starts by building spatial connections between actors within the same timeframe and then captures simultaneous spatio-temporal dynamics among them. We demonstrate that Flaming-Net achieves new state-of-the-art WSGAR results on two benchmarks, including a 2.8%p higher MPCA score on the NBA dataset. Importantly, we use the optical flow modality only for training and not for inference.