A Renaissance of Explicit Motion Information Mining from Transformers for Action Recognition
作者: Peiqin Zhuang, Lei Bai, Yichao Wu, Ding Liang, Luping Zhou, Yali Wang, Wanli Ouyang
分类: cs.CV
发布日期: 2025-10-21 (更新: 2025-10-23)
备注: accepted by Pattern Recognition. We have been always curious to see whether our designs could be beneficial in other scenarios, such as embedding it into the DiT model or 3D-VAE for video generation. If you are interested in it, why not give it a shot?
🔗 代码/项目: GITHUB
💡 一句话要点
提出显式运动信息挖掘模块EMIM,增强Transformer在动作识别中对运动信息的建模能力。
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)
关键词: 动作识别 Transformer 运动建模 代价体 显式运动信息挖掘
📋 核心要点
- 现有基于Transformer的动作识别方法在处理运动敏感数据集时表现不佳,主要原因是缺乏对运动信息的有效建模。
- 本文提出EMIM模块,通过模仿代价体的运动建模方式,显式地挖掘和利用视频中的运动信息,提升模型性能。
- 实验结果表明,该方法在多个数据集上优于现有方法,尤其是在Something-Something V1/V2等运动敏感数据集上提升显著。
📝 摘要(中文)
本文提出了一种基于Transformer的动作识别方法,旨在解决现有方法在运动敏感数据集上表现不佳的问题,这是由于缺乏精细的运动建模设计。作者观察到传统动作识别中广泛使用的代价体与自注意力机制中的亲和矩阵高度相似,但前者具有强大的运动建模能力。因此,本文提出显式运动信息挖掘模块(EMIM),将代价体的有效运动建模特性集成到Transformer中。EMIM以代价体的形式构建所需的亲和矩阵,其中关键候选token集通过在下一帧中以滑动窗口方式从基于查询的相邻区域采样得到。构建的亲和矩阵用于聚合上下文信息以进行外观建模,并转换为运动特征以进行运动建模。在四个广泛使用的数据集上的实验表明,该方法优于现有的最先进方法,尤其是在运动敏感数据集(如Something-Something V1和V2)上。
🔬 方法详解
问题定义:现有基于Transformer的动作识别方法,虽然在时空上下文聚合方面表现出色,但在运动敏感数据集上性能不佳。这是因为它们缺乏对视频中运动信息的有效建模,无法充分利用运动线索进行动作识别。现有方法通常侧重于外观特征的学习,而忽略了运动信息的重要性。
核心思路:本文的核心思路是将传统动作识别中代价体的运动建模能力融入到Transformer架构中。代价体能够有效地捕捉帧间的运动信息,因此,通过模仿代价体的构建方式,可以显式地提取和利用视频中的运动信息,从而提升模型在运动敏感数据集上的性能。
技术框架:该方法的核心是显式运动信息挖掘模块(EMIM)。EMIM模块首先基于查询token在下一帧中采样得到关键候选token集,采样方式采用滑动窗口。然后,利用查询token和关键候选token集构建代价体风格的亲和矩阵。该亲和矩阵一方面用于聚合上下文信息,进行外观建模;另一方面,被转换为运动特征,进行运动建模。EMIM模块可以嵌入到现有的Transformer架构中,形成一个统一的动作识别模型。
关键创新:该方法最重要的创新点在于提出了EMIM模块,该模块能够显式地挖掘和利用视频中的运动信息。与现有方法相比,EMIM模块能够更有效地捕捉帧间的运动关系,从而提升模型在运动敏感数据集上的性能。EMIM模块通过模仿代价体的构建方式,将运动建模能力融入到Transformer架构中,是一种新颖且有效的方法。
关键设计:EMIM模块的关键设计包括:1) 关键候选token集的采样方式,采用滑动窗口策略,保证了对局部运动信息的有效捕捉;2) 亲和矩阵的构建方式,模仿代价体的构建方式,能够有效地捕捉帧间的运动关系;3) 亲和矩阵的使用方式,既用于外观建模,又用于运动建模,实现了对运动信息的充分利用。具体的损失函数和网络结构细节在论文中有详细描述,但摘要中未明确提及。
🖼️ 关键图片
📊 实验亮点
该方法在四个广泛使用的数据集上进行了验证,尤其是在运动敏感数据集Something-Something V1和V2上表现出色,超越了现有的state-of-the-art方法。具体性能提升数据未在摘要中给出,但强调了在运动敏感数据集上的显著优势,表明EMIM模块在运动建模方面的有效性。
🎯 应用场景
该研究成果可应用于视频监控、人机交互、自动驾驶等领域。例如,在视频监控中,可以利用该方法识别异常行为;在人机交互中,可以利用该方法识别用户的手势和动作;在自动驾驶中,可以利用该方法识别行人和车辆的运动状态。该研究的实际价值在于提升了动作识别的准确性和鲁棒性,为相关应用提供了更可靠的技术支持。
📄 摘要(原文)
Recently, action recognition has been dominated by transformer-based methods, thanks to their spatiotemporal contextual aggregation capacities. However, despite the significant progress achieved on scene-related datasets, they do not perform well on motion-sensitive datasets due to the lack of elaborate motion modeling designs. Meanwhile, we observe that the widely-used cost volume in traditional action recognition is highly similar to the affinity matrix defined in self-attention, but equipped with powerful motion modeling capacities. In light of this, we propose to integrate those effective motion modeling properties into the existing transformer in a unified and neat way, with the proposal of the Explicit Motion Information Mining module (EMIM). In EMIM, we propose to construct the desirable affinity matrix in a cost volume style, where the set of key candidate tokens is sampled from the query-based neighboring area in the next frame in a sliding-window manner. Then, the constructed affinity matrix is used to aggregate contextual information for appearance modeling and is converted into motion features for motion modeling as well. We validate the motion modeling capacities of our method on four widely-used datasets, and our method performs better than existing state-of-the-art approaches, especially on motion-sensitive datasets, i.e., Something-Something V1 & V2. Our project is available at https://github.com/PeiqinZhuang/EMIM .