Signal-SGN: A Spiking Graph Convolutional Network for Skeletal Action Recognition via Learning Temporal-Frequency Dynamics
作者: Naichuan Zheng, Yuchen Du, Hailun Xia, Zeyu Liang
分类: cs.CV
发布日期: 2024-08-03 (更新: 2025-10-30)
期刊: Proceedings of the 33rd ACM International Conference on Multimedia, 2025
💡 一句话要点
提出Signal-SGN,利用脉冲神经网络进行骨骼动作识别,提升能效。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 骨骼动作识别 脉冲神经网络 图卷积网络 时频分析 低功耗 多模态学习 小波变换
📋 核心要点
- GCN虽然在骨骼动作识别上有效,但高能耗限制了其在电池供电设备上的应用。
- Signal-SGN将骨骼序列的时间维度作为脉冲时间步长,提取时频域特征,提升SNN建模骨骼动态的能力。
- 实验表明,Signal-SGN在精度和效率上优于现有SNN方法,能耗显著降低,性能与GCN相当。
📝 摘要(中文)
本文提出了一种用于多模态骨骼动作识别的脉冲图卷积网络(Signal-SGN)。尽管图卷积网络(GCNs)在该任务上表现出色,但其浮点运算导致高能耗,限制了在电池供电设备中的应用。脉冲神经网络(SNNs)虽然节能,但在建模骨骼动态方面存在困难,导致次优解。Signal-SGN利用骨骼序列的时间维度作为脉冲时间步长,并将特征表示为多维离散随机信号,以提取时频域特征。它结合了1D脉冲图卷积(1D-SGC)模块和频率脉冲卷积(FSC)模块,从脉冲形式表示的骨骼中提取特征。此外,提出了多尺度小波变换特征融合(MWTF)模块,以提取动态脉冲特征并捕获特定频率的特征,从而提高分类性能。在三个大型数据集上的实验表明,Signal-SGN在准确性和计算效率方面超过了最先进的基于SNN的方法,同时达到了与GCN方法相当的性能,并显著降低了理论能耗。
🔬 方法详解
问题定义:现有的基于GCN的骨骼动作识别方法虽然精度高,但计算复杂度高,能耗大,难以在移动设备或嵌入式设备上部署。而SNN虽然能耗低,但难以有效建模骨骼动作的时序动态信息,导致识别精度不高。因此,如何在保证精度的前提下,降低骨骼动作识别模型的能耗,是一个重要的研究问题。
核心思路:论文的核心思路是将骨骼动作序列的时序信息转化为脉冲神经网络中的脉冲序列,利用脉冲神经网络的低功耗特性,同时设计专门的模块来提取时序和频率信息,从而提高识别精度。通过将骨骼数据编码为脉冲信号,并利用脉冲神经网络处理这些信号,可以在降低能耗的同时,保留甚至增强对动作动态信息的建模能力。
技术框架:Signal-SGN的整体框架包括三个主要模块:1D脉冲图卷积(1D-SGC)模块、频率脉冲卷积(FSC)模块和多尺度小波变换特征融合(MWTF)模块。首先,1D-SGC模块用于提取骨骼节点之间的空间关系特征。然后,FSC模块用于提取脉冲信号的频率特征。最后,MWTF模块用于融合不同尺度的特征,并提取动态脉冲特征。整个网络以端到端的方式进行训练。
关键创新:该论文的关键创新在于:1) 将骨骼动作序列表示为脉冲信号,并利用脉冲神经网络进行处理;2) 提出了1D-SGC和FSC模块,分别用于提取空间和频率特征;3) 提出了MWTF模块,用于融合多尺度特征并提取动态脉冲特征。与现有方法相比,Signal-SGN能够更有效地利用脉冲神经网络的低功耗特性,同时提高骨骼动作识别的精度。
关键设计:在1D-SGC模块中,使用了类似于GCN的图卷积操作,但输入是脉冲信号。在FSC模块中,使用了卷积操作来提取脉冲信号的频率特征。在MWTF模块中,使用了小波变换来提取不同尺度的特征,并使用注意力机制来融合这些特征。损失函数使用了交叉熵损失函数,并添加了正则化项来防止过拟合。具体的网络结构和参数设置在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Signal-SGN在三个大型数据集(NTU RGB+D 60, NTU RGB+D 120, NW-UCLA)上取得了优异的性能。例如,在NTU RGB+D 60数据集上,Signal-SGN的准确率达到了与GCN方法相当的水平,同时理论能耗显著降低。与现有的基于SNN的方法相比,Signal-SGN在准确率和计算效率方面均有显著提升。
🎯 应用场景
Signal-SGN具有广泛的应用前景,例如在移动健康监测、智能家居、人机交互、安防监控等领域。该方法可以用于识别用户的日常活动、跌倒检测、手势识别等。由于其低功耗特性,特别适合在电池供电的移动设备或嵌入式设备上部署,实现实时、高效的骨骼动作识别。
📄 摘要(原文)
For multimodal skeleton-based action recognition, Graph Convolutional Networks (GCNs) are effective models. Still, their reliance on floating-point computations leads to high energy consumption, limiting their applicability in battery-powered devices. While energy-efficient, Spiking Neural Networks (SNNs) struggle to model skeleton dynamics, leading to suboptimal solutions. We propose Signal-SGN (Spiking Graph Convolutional Network), which utilizes the temporal dimension of skeleton sequences as the spike time steps and represents features as multi-dimensional discrete stochastic signals for temporal-frequency domain feature extraction. It combines the 1D Spiking Graph Convolution (1D-SGC) module and the Frequency Spiking Convolution (FSC) module to extract features from the skeleton represented as spiking form. Additionally, the Multi-Scale Wavelet Transform Feature Fusion (MWTF) module is proposed to extract dynamic spiking features and capture frequency-specific characteristics, enhancing classification performance. Experiments across three large-scale datasets reveal Signal-SGN exceeding state-of-the-art SNN-based methods in accuracy and computational efficiency while attaining comparable performance with GCN methods and significantly reducing theoretical energy consumption.