EventGait: Towards Robust Gait Recognition with Event Streams

📄 arXiv: 2605.22139v1 📥 PDF

作者: Senyan Xu, Shuai Chen, Chuanfu Shen, Kean Liu, Zhijing Sun, Chengzhi Cao, Xueyang Fu

分类: cs.CV

发布日期: 2026-05-21

🔗 代码/项目: GITHUB


💡 一句话要点

EventGait:利用事件流实现稳健的步态识别,尤其在低光照环境下表现出色。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 事件相机 步态识别 动态视觉 混合尖峰专家 跨模态对齐 深度学习 低光照 双流网络

📋 核心要点

  1. 传统步态识别依赖普通相机,易受光照和运动变化影响,在复杂环境下鲁棒性不足。
  2. EventGait利用事件相机的高时间分辨率和动态范围,分别建模运动和形状信息,提升识别性能。
  3. 通过合成数据和真实数据验证,EventGait在低光照等场景下显著优于传统方法,达到新的SOTA。

📝 摘要(中文)

步态识别作为一种非侵入式、保护隐私的身份识别技术,在不受控环境中易受光照和运动的影响。本文探索使用事件相机进行步态识别,事件相机具有微秒级时间分辨率和高动态范围,能够自然地捕捉鲁棒的动态线索并抑制静态噪声。现有基于事件的方法通常将事件流在长时间窗口内聚合为事件图像,从而丢弃了对步态识别至关重要的细粒度运动动态。因此,我们提出了EventGait,一个端到端的双流框架,分别建模运动和形状,同时保留事件的优势。我们的动态流利用具有不同神经元常数的混合尖峰专家(MoSE),以实现跨复杂运动和光照场景的鲁棒动态感知,而静态流通过与大型视觉基础模型的跨模态结构对齐(CroSA)来学习密集的形状表示。为了解决缺乏大规模基于事件的步态数据集的问题,我们引入了一个合成管道,并发布了两个新的基准:SUSTech1K-E和CCGR-Mini-E。大量实验表明,基于事件的步态识别不仅在正常条件下取得了与基于相机的步态识别相当的结果,而且在低光照场景下明显优于它。我们的方法在合成的和真实的基于事件的步态基准上都创造了新的技术水平,突出了事件驱动步态分析的鲁棒性和潜力。代码和数据集已在https://github.com/QUEAHREN/EventGait上发布。

🔬 方法详解

问题定义:现有基于相机的步态识别方法在光照变化和运动模糊等复杂环境下表现不佳。基于事件相机的步态识别面临的挑战是如何有效利用事件流中的时空信息,同时克服缺乏大规模训练数据的问题。

核心思路:EventGait的核心思路是设计一个双流框架,分别处理动态运动信息和静态形状信息。动态流专注于捕捉步态的运动模式,而静态流则提取步态的形状特征。通过这种方式,可以更全面地理解步态特征,提高识别的鲁棒性。

技术框架:EventGait框架包含两个主要分支:动态流和静态流。动态流使用混合尖峰专家(MoSE)网络处理事件流,MoSE包含多个具有不同时间常数的尖峰神经元,能够捕捉不同时间尺度的运动信息。静态流使用跨模态结构对齐(CroSA)方法,将事件数据与视觉基础模型对齐,学习形状表示。两个流的输出被融合用于最终的步态识别。

关键创新:EventGait的关键创新在于以下几点:1) 提出了一个双流框架,分别建模动态和静态信息;2) 使用MoSE网络捕捉事件流中的动态信息;3) 引入CroSA方法,利用视觉基础模型学习形状表示;4) 构建了大规模的合成事件步态数据集。

关键设计:MoSE网络包含多个具有不同时间常数的尖峰神经元,时间常数的选择影响了网络对不同速度运动的敏感度。CroSA方法使用对比学习损失函数,促使事件数据和视觉特征在嵌入空间中对齐。为了生成合成数据,论文设计了一个逼真的步态模拟器,可以模拟不同的光照条件和运动模式。

📊 实验亮点

EventGait在SUSTech1K-E和CCGR-Mini-E两个数据集上取得了显著的性能提升。在低光照条件下,EventGait的识别准确率明显优于基于相机的传统方法。在SUSTech1K-E数据集上,EventGait的Rank-1准确率达到了XX%,相比于基线方法提升了YY%。

🎯 应用场景

EventGait在安防监控、智能家居、医疗健康等领域具有广泛的应用前景。例如,在安防监控中,可以在低光照或复杂环境下进行身份识别;在智能家居中,可以根据步态识别家庭成员,提供个性化服务;在医疗健康领域,可以用于步态分析,辅助诊断和康复。

📄 摘要(原文)

Gait recognition enables non-intrusive, privacy-preserving identification but suffers in uncontrolled environments due to illumination and motion sensitivity of conventional cameras. In this work, we explore gait recognition using event cameras, which offer microsecond temporal resolution and high dynamic range, naturally capturing robust dynamic cues and suppressing static noise. Existing event-based approaches typically aggregate event streams into event images over long time windows, thereby discarding fine-grained motion dynamics critical for gait recognition. Therefore, we propose \textbf{EventGait}, an end-to-end dual-stream framework that separately models motion and shape while preserving the advantages of events. Our dynamic stream leverages a Mixture of Spiking Experts (MoSE) with diverse neuron constants for robust dynamic perception across complex motion and illumination scenes, while the static stream learns dense shape representations via Cross-modal Structure Alignment (CroSA) with large vision foundation models. To address the absence of large-scale event-based gait datasets, we introduce a synthesis pipeline and release two new benchmarks: SUSTech1K-E and CCGR-Mini-E. Extensive experiments have shown that event-based gait recognition not only achieves results comparable to camera-based gait recognition under normal conditions but also significantly outperforms it in low-light scenarios. Our approach sets a new state of the art on both synthesized and real-world event-based gait benchmarks, highlighting the robustness and potential of event-driven gait analysis. The code and datasets are released at https://github.com/QUEAHREN/EventGait.