TSkel-Mamba: Temporal Dynamic Modeling via State Space Model for Human Skeleton-based Action Recognition
作者: Yanan Liu, Jun Liu, Hao Zhang, Dan Xu, Hossein Rahmani, Mohammed Bennamoun, Qiuhong Ke
分类: cs.CV
发布日期: 2025-12-12
💡 一句话要点
提出TSkel-Mamba,利用状态空间模型进行人体骨骼动作识别,提升时序建模能力。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 人体动作识别 骨骼数据 状态空间模型 Mamba 时间序列建模 多尺度时间交互 Transformer
📋 核心要点
- 现有基于骨骼的动作识别方法在时序建模方面存在不足,难以充分捕捉通道间的依赖关系。
- TSkel-Mamba通过结合空间Transformer和Mamba,并引入TDM块和MTI模块,增强了时序建模能力。
- 实验结果表明,TSkel-Mamba在多个数据集上取得了state-of-the-art的性能,并保持了较低的推理时间。
📝 摘要(中文)
本文提出了一种名为TSkel-Mamba的混合Transformer-Mamba框架,用于有效捕捉空间和时间动态,从而进行基于人体骨骼的动作识别。该方法利用空间Transformer进行空间特征学习,并利用Mamba进行时间建模。针对Mamba在通道间依赖建模方面的局限性,引入了时间动态建模(TDM)块,这是一个集成了新型多尺度时间交互(MTI)模块的通用即插即用组件。MTI模块采用多尺度循环算子来捕获跨通道时间交互,这在动作识别中至关重要。在NTU-RGB+D 60、NTU-RGB+D 120、NW-UCLA和UAV-Human数据集上的大量实验表明,TSkel-Mamba在保持低推理时间的同时,实现了最先进的性能,使其既高效又有效。
🔬 方法详解
问题定义:基于骨骼的动作识别旨在根据人体骨骼序列预测动作类别。现有方法,特别是直接应用Mamba模型的方法,在建模通道间的时间依赖关系方面存在局限性。Mamba模型通常独立处理每个通道,忽略了骨骼节点之间的关联性,这限制了其在动作识别任务中的性能。
核心思路:本文的核心思路是通过引入时间动态建模(TDM)块,增强Mamba模型对通道间时间依赖关系的建模能力。TDM块包含一个多尺度时间交互(MTI)模块,该模块利用多尺度循环算子来捕获不同时间尺度下的跨通道交互。通过这种方式,模型能够更好地理解骨骼节点之间的协同运动模式,从而提高动作识别的准确性。
技术框架:TSkel-Mamba框架主要由三个部分组成:空间Transformer、Mamba模块和时间动态建模(TDM)块。首先,空间Transformer用于提取每一帧骨骼数据的空间特征。然后,这些空间特征被输入到Mamba模块中进行初步的时间建模。最后,TDM块被插入到Mamba模块中,用于增强通道间的时间依赖关系建模。整个框架采用端到端的方式进行训练。
关键创新:该论文的关键创新在于提出了时间动态建模(TDM)块和多尺度时间交互(MTI)模块。TDM块作为一个即插即用组件,可以方便地集成到现有的Mamba模型中,而无需修改Mamba模型的内部结构。MTI模块通过多尺度循环算子,能够有效地捕获不同时间尺度下的跨通道交互,从而提高了模型对复杂动作的识别能力。与现有方法相比,TSkel-Mamba能够更好地利用骨骼节点之间的关联性,从而获得更准确的动作识别结果。
关键设计:MTI模块的关键设计在于多尺度循环算子的选择。论文中具体使用的循环算子类型未知,但其核心思想是通过不同尺度的循环操作,捕捉不同时间跨度的通道间依赖关系。TDM块的插入位置和数量也是关键的设计参数,需要根据具体任务进行调整。损失函数方面,通常采用交叉熵损失函数来训练整个模型。
🖼️ 关键图片
📊 实验亮点
TSkel-Mamba在NTU-RGB+D 60、NTU-RGB+D 120、NW-UCLA和UAV-Human等多个数据集上取得了state-of-the-art的性能。具体性能数据和对比基线在论文中给出,表明该方法在动作识别精度和推理速度方面均优于现有方法,尤其是在复杂动作的识别上表现突出。
🎯 应用场景
TSkel-Mamba在人体动作识别领域具有广泛的应用前景,例如视频监控、人机交互、康复训练、运动分析等。该模型能够准确识别各种人体动作,为相关应用提供可靠的技术支持,并有望在未来推动智能监控、智能家居和医疗健康等领域的发展。
📄 摘要(原文)
Skeleton-based action recognition has garnered significant attention in the computer vision community. Inspired by the recent success of the selective state-space model (SSM) Mamba in modeling 1D temporal sequences, we propose TSkel-Mamba, a hybrid Transformer-Mamba framework that effectively captures both spatial and temporal dynamics. In particular, our approach leverages Spatial Transformer for spatial feature learning while utilizing Mamba for temporal modeling. Mamba, however, employs separate SSM blocks for individual channels, which inherently limits its ability to model inter-channel dependencies. To better adapt Mamba for skeleton data and enhance Mamba`s ability to model temporal dependencies, we introduce a Temporal Dynamic Modeling (TDM) block, which is a versatile plug-and-play component that integrates a novel Multi-scale Temporal Interaction (MTI) module. The MTI module employs multi-scale Cycle operators to capture cross-channel temporal interactions, a critical factor in action recognition. Extensive experiments on NTU-RGB+D 60, NTU-RGB+D 120, NW-UCLA and UAV-Human datasets demonstrate that TSkel-Mamba achieves state-of-the-art performance while maintaining low inference time, making it both efficient and highly effective.