EPAM-Net: An Efficient Pose-driven Attention-guided Multimodal Network for Video Action Recognition
作者: Ahmed Abdelkawy, Asem Ali, Aly Farag
分类: cs.CV, cs.AI
发布日期: 2024-08-10 (更新: 2025-03-20)
期刊: Neurocomputing, Volume 633, 7 June 2025, 129781
DOI: 10.1016/j.neucom.2025.129781
🔗 代码/项目: GITHUB
💡 一句话要点
提出EPAM-Net,一种高效的姿态驱动注意力引导多模态网络,用于视频动作识别。
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频动作识别 多模态学习 姿态估计 注意力机制 时空特征提取 高效网络 深度学习
📋 核心要点
- 现有基于多模态的人体动作识别方法计算量大,限制了其在实时应用中的部署。
- EPAM-Net利用X-ShiftNet提取RGB和姿态的时空特征,并使用姿态引导的注意力机制来关注关键帧和显著区域。
- 实验表明,EPAM-Net在显著降低计算复杂度的同时,在多个数据集上取得了与SOTA方法相当甚至更好的性能。
📝 摘要(中文)
本文提出了一种新颖且高效的姿态驱动注意力引导多模态网络(EPAM-Net),用于视频中的动作识别。具体而言,我们为RGB和姿态流提出了eXpand temporal Shift (X-ShiftNet) 卷积架构,以从RGB视频及其骨骼序列中捕获时空特征。X-ShiftNet通过将时间移位模块(TSM)集成到高效的2D CNN中,解决了3D CNN的高计算成本问题,从而实现了高效的时空学习。然后,利用骨骼特征来引导视觉网络流,使用提出的时空注意力块来关注关键帧及其显著的空间区域。最后,融合两个流的预测结果以进行最终分类。实验结果表明,我们的方法在浮点运算(FLOPs)显著减少的情况下,在NTU RGB-D 60、NTU RGB-D 120、PKU-MMD和Toyota SmartHome数据集上优于并能与最先进的方法相媲美。所提出的EPAM-Net在FLOPs方面最多可减少72.8倍,在网络参数数量方面最多可减少48.6倍。代码将在https://github.com/ahmed-nady/Multimodal-Action-Recognition上提供。
🔬 方法详解
问题定义:现有基于多模态的动作识别方法通常依赖于计算量大的3D CNN,难以在资源受限的场景中实时部署。因此,需要设计一种高效的多模态网络,能够在保证识别精度的同时,显著降低计算复杂度。
核心思路:论文的核心思路是利用高效的2D CNN结合时间移位模块(TSM)来提取时空特征,并利用骨骼姿态信息引导视觉特征的学习,从而减少冗余计算,提高特征表达能力。通过姿态信息,网络可以更关注与动作相关的关键帧和空间区域。
技术框架:EPAM-Net包含两个主要分支:RGB分支和姿态分支。RGB分支使用X-ShiftNet提取视觉时空特征,姿态分支也使用X-ShiftNet提取骨骼时空特征。然后,姿态特征被用于引导RGB分支的注意力机制,使其关注关键帧和显著区域。最后,两个分支的预测结果被融合,得到最终的动作分类结果。
关键创新:主要的创新点在于提出了X-ShiftNet,它将TSM集成到高效的2D CNN中,从而在降低计算复杂度的同时,保持了时空特征提取的能力。此外,利用姿态信息引导视觉特征学习的注意力机制也是一个创新点,它可以有效地提高特征表达能力。与现有方法相比,EPAM-Net在计算效率和精度之间取得了更好的平衡。
关键设计:X-ShiftNet通过在2D卷积层之间插入时间移位操作来实现时空特征提取。姿态引导的注意力机制通过一个时空注意力块实现,该模块利用姿态特征来生成注意力权重,用于加权RGB特征。损失函数是两个分支的交叉熵损失的加权和,权重可以根据数据集进行调整。
🖼️ 关键图片
📊 实验亮点
EPAM-Net在NTU RGB-D 60、NTU RGB-D 120、PKU-MMD和Toyota SmartHome数据集上取得了优异的性能。与现有方法相比,EPAM-Net在FLOPs方面最多可减少72.8倍,在网络参数数量方面最多可减少48.6倍。同时,在精度方面,EPAM-Net与最先进的方法相媲美,甚至在某些数据集上取得了更好的结果。
🎯 应用场景
EPAM-Net具有广泛的应用前景,包括视频监控、人机交互、智能家居、运动分析等领域。其高效的计算性能使其能够部署在资源受限的设备上,例如移动设备和嵌入式系统。该研究有助于推动实时动作识别技术的发展,并为相关应用提供更可靠和高效的解决方案。
📄 摘要(原文)
Existing multimodal-based human action recognition approaches are computationally intensive, limiting their deployment in real-time applications. In this work, we present a novel and efficient pose-driven attention-guided multimodal network (EPAM-Net) for action recognition in videos. Specifically, we propose eXpand temporal Shift (X-ShiftNet) convolutional architectures for RGB and pose streams to capture spatio-temporal features from RGB videos and their skeleton sequences. The X-ShiftNet tackles the high computational cost of the 3D CNNs by integrating the Temporal Shift Module (TSM) into an efficient 2D CNN, enabling efficient spatiotemporal learning. Then skeleton features are utilized to guide the visual network stream, focusing on keyframes and their salient spatial regions using the proposed spatial-temporal attention block. Finally, the predictions of the two streams are fused for final classification. The experimental results show that our method, with a significant reduction in floating-point operations (FLOPs), outperforms and competes with the state-of-the-art methods on NTU RGB-D 60, NTU RGB-D 120, PKU-MMD, and Toyota SmartHome datasets. The proposed EPAM-Net provides up to a 72.8x reduction in FLOPs and up to a 48.6x reduction in the number of network parameters. The code will be available at https://github.com/ahmed-nady/Multimodal-Action-Recognition.