Temporal-Guided Spiking Neural Networks for Event-Based Human Action Recognition

📄 arXiv: 2503.17132v3 📥 PDF

作者: Siyuan Yang, Shilin Lu, Shizheng Wang, Meng Hwa Er, Zengwei Zheng, Alex C. Kot

分类: cs.CV, cs.AI, cs.CR, cs.NE

发布日期: 2025-03-21 (更新: 2025-06-11)


💡 一句话要点

提出时序引导的脉冲神经网络,用于事件相机的人体行为识别

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)

关键词: 脉冲神经网络 事件相机 人体行为识别 时序建模 3D卷积 神经形态计算 跌倒检测

📋 核心要点

  1. 现有SNN方法在处理人体行为识别中长时程时序信息的能力不足,限制了识别精度。
  2. 提出TS-SNN和3D-SNN两种框架,分别通过时序分割和3D卷积来增强SNN对时序信息的处理能力。
  3. 在自建数据集FallingDetection-CeleX及其他数据集上,实验结果表明所提方法优于现有SNN方法。

📝 摘要(中文)

本文探索了脉冲神经网络(SNNs)与事件相机在保护隐私的人体行为识别(HAR)中的协同潜力。事件相机仅捕获运动轮廓的特性,结合SNNs通过脉冲处理时空数据的能力,为基于事件的HAR建立了高度协同的兼容性。然而,以往研究受限于SNNs处理长期时序信息的能力,这对于精确的HAR至关重要。本文提出了两种新框架来解决这个问题:基于时序片段的SNN(TS-SNN)和3D卷积SNN(3D-SNN)。TS-SNN通过将动作划分为更短的片段来提取长期时序信息,而3D-SNN用3D组件替换2D空间元素,以促进时序信息的传输。为了促进事件相机HAR的进一步研究,我们使用高分辨率CeleX-V事件相机(1280×800)收集了一个包含7个不同动作的数据集FallingDetection-CeleX。大量实验结果表明,我们提出的框架在我们新收集的数据集和三个其他神经形态数据集上优于最先进的SNN方法,展示了它们在处理基于事件的HAR的远程时序信息方面的有效性。

🔬 方法详解

问题定义:论文旨在解决事件相机数据驱动的人体行为识别问题,现有SNN方法难以有效处理长时程时序信息,导致识别精度不高。事件相机产生的数据是异步的事件流,传统的基于帧的神经网络难以直接应用,而SNN具有处理时空数据的天然优势,但其对长时序依赖建模能力较弱。

核心思路:论文的核心思路是通过两种方式增强SNN对长时序信息的建模能力。TS-SNN将长动作分割成短时序片段,分别处理后再进行融合;3D-SNN则利用3D卷积操作,在空间维度上融合时序信息,从而更好地传递时序信息。这两种方法都旨在弥补传统SNN在处理长时序依赖方面的不足。

技术框架:整体框架包含数据预处理、特征提取和分类三个主要阶段。对于TS-SNN,首先将事件数据分割成多个时间片段,然后使用SNN对每个片段进行特征提取,最后将所有片段的特征进行融合,使用分类器进行分类。对于3D-SNN,直接将事件数据输入到3D卷积SNN中进行特征提取和分类。两个框架都使用了脉冲神经网络作为核心处理单元。

关键创新:论文的关键创新在于提出了两种新的SNN架构,即TS-SNN和3D-SNN,专门用于处理事件相机数据中的长时序信息。TS-SNN通过分段处理降低了SNN处理长序列的难度,而3D-SNN则通过3D卷积操作在网络结构上增强了时序信息的传递。与现有方法相比,这两种方法更有效地利用了事件相机数据的时空特性。

关键设计:在TS-SNN中,关键设计包括时间片段的长度选择和片段特征的融合方式。时间片段过短可能丢失动作的整体信息,过长则难以有效处理。片段特征的融合可以使用平均池化、最大池化或注意力机制等方法。在3D-SNN中,关键设计包括3D卷积核的大小、步长和通道数等参数设置,以及网络深度和激活函数的选择。损失函数通常使用交叉熵损失函数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的TS-SNN和3D-SNN在FallingDetection-CeleX数据集上取得了显著的性能提升,并且在DVS128 Gesture、N-Caltech101和ASL-DVS等其他神经形态数据集上也优于现有的SNN方法。例如,在FallingDetection-CeleX数据集上,3D-SNN的准确率比最先进的SNN方法提高了5%以上,证明了其在处理长时序信息方面的有效性。

🎯 应用场景

该研究成果可应用于智能安防、老人看护、跌倒检测等领域。事件相机具有高动态范围、低功耗和隐私保护等优点,结合SNN的高效计算能力,可以在资源受限的边缘设备上实现实时的人体行为识别,具有广阔的应用前景。

📄 摘要(原文)

This paper explores the promising interplay between spiking neural networks (SNNs) and event-based cameras for privacy-preserving human action recognition (HAR). The unique feature of event cameras in capturing only the outlines of motion, combined with SNNs' proficiency in processing spatiotemporal data through spikes, establishes a highly synergistic compatibility for event-based HAR. Previous studies, however, have been limited by SNNs' ability to process long-term temporal information, essential for precise HAR. In this paper, we introduce two novel frameworks to address this: temporal segment-based SNN (\textit{TS-SNN}) and 3D convolutional SNN (\textit{3D-SNN}). The \textit{TS-SNN} extracts long-term temporal information by dividing actions into shorter segments, while the \textit{3D-SNN} replaces 2D spatial elements with 3D components to facilitate the transmission of temporal information. To promote further research in event-based HAR, we create a dataset, \textit{FallingDetection-CeleX}, collected using the high-resolution CeleX-V event camera $(1280 \times 800)$, comprising 7 distinct actions. Extensive experimental results show that our proposed frameworks surpass state-of-the-art SNN methods on our newly collected dataset and three other neuromorphic datasets, showcasing their effectiveness in handling long-range temporal information for event-based HAR.