HorGait: A Hybrid Model for Accurate Gait Recognition in LiDAR Point Cloud Planar Projections

📄 arXiv: 2410.08454v2 📥 PDF

作者: Jiaxing Hao, Yanxi Wang, Zhigang Chang, Hongmin Gao, Zihao Cheng, Chen Wu, Xin Zhao, Peiye Fang, Rachmat Muwardi

分类: cs.CV

发布日期: 2024-10-11 (更新: 2024-10-24)

DOI: 10.1109/ACCESS.2025.3547759


💡 一句话要点

HorGait:一种混合模型,用于LiDAR点云平面投影中准确的步态识别

🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction)

关键词: 步态识别 LiDAR点云 Transformer 混合模型 LHM Block

📋 核心要点

  1. 现有2D步态识别方法易受光照和环境干扰,且空间感知能力有限;直接使用3D点云的浅层网络难以准确识别。
  2. HorGait提出一种混合模型LHM Block,结合Transformer和CNN的优势,实现输入自适应、长程依赖和高阶空间交互。
  3. 实验表明,HorGait在SUSTech1K数据集上取得了Transformer架构方法中最先进的性能,验证了混合模型的有效性。

📝 摘要(中文)

步态识别是一种远程生物识别技术,它利用人体运动的动态特征来识别个体,即使在各种极端光照条件下也能进行。由于2D步态表示在空间感知能力方面的固有局限性,LiDAR可以直接捕获3D步态特征并将其表示为点云,从而减少环境和光照干扰,同时显著提高隐私保护。对于复杂的3D表示,浅层网络无法实现准确的识别,使得视觉Transformer成为最流行的方法。然而,大量无效patch限制了Transformer架构在步态识别中的广泛应用。本文提出了一种名为HorGait的方法,该方法利用具有Transformer架构的混合模型,用于LiDAR 3D点云平面投影的步态识别。具体来说,它采用一种名为LHM Block的混合模型结构,以实现Transformer架构的输入自适应、长程和高阶空间交互。此外,它使用大型卷积核CNN来分割输入表示,替换注意力窗口以减少无效patch。我们进行了广泛的实验,结果表明,HorGait在SUSTech1K数据集上实现了Transformer架构方法中最先进的性能,验证了混合模型可以完成完整的Transformer过程,并在点云平面投影中表现更好。HorGait的优异性能为Transformer架构在步态识别中的未来应用提供了新的见解。

🔬 方法详解

问题定义:论文旨在解决在LiDAR点云步态识别中,传统Transformer架构由于无效patch过多而导致识别精度不高的问题。现有方法要么依赖于2D步态表示,易受环境影响,要么直接使用3D点云但难以有效提取特征。Transformer虽然具有强大的特征提取能力,但直接应用于点云数据时,容易产生大量无效patch,降低识别性能。

核心思路:论文的核心思路是结合Transformer和CNN的优势,设计一种混合模型LHM Block,以自适应地处理输入数据,捕捉长程依赖关系,并减少无效patch的影响。通过CNN的大感受野来分割输入,减少了注意力计算的冗余,从而提升了模型的效率和准确性。

技术框架:HorGait的整体框架包括以下几个主要步骤:首先,从LiDAR获取3D点云数据;然后,将3D点云投影到平面上,得到2D步态表示;接着,使用LHM Block进行特征提取,LHM Block是论文提出的核心模块,它融合了Transformer和CNN;最后,将提取的特征输入到分类器中进行步态识别。

关键创新:论文的关键创新在于LHM Block的设计,它是一种混合模型结构,结合了Transformer的全局建模能力和CNN的局部特征提取能力。LHM Block使用大型卷积核CNN来分割输入表示,替换了传统的注意力窗口,从而减少了无效patch的数量,提高了模型的效率和准确性。此外,LHM Block还实现了输入自适应、长程依赖和高阶空间交互。

关键设计:LHM Block的关键设计包括:(1) 使用大卷积核的CNN进行patch分割,减少无效patch;(2) 采用Transformer进行全局建模,捕捉长程依赖关系;(3) 设计了特定的损失函数来优化模型的训练。具体的参数设置和网络结构细节在论文中有详细描述,但摘要中未明确提及。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

HorGait在SUSTech1K数据集上取得了显著的性能提升,达到了Transformer架构方法中最先进的水平。通过引入LHM Block,有效减少了无效patch的影响,提高了模型的识别精度。实验结果表明,该混合模型能够充分利用Transformer的全局建模能力和CNN的局部特征提取能力,从而在LiDAR点云步态识别任务中取得更好的效果。具体的性能数据和对比基线在论文中进行了详细的展示。

🎯 应用场景

该研究成果可应用于智能安防、智慧城市、智能交通等领域。例如,在机场、车站等公共场所,可以通过LiDAR步态识别技术进行身份验证和异常行为检测。此外,该技术还可以应用于养老院等场所,用于监测老年人的健康状况和跌倒风险。未来,该技术有望与机器人、无人机等设备相结合,实现更广泛的应用。

📄 摘要(原文)

Gait recognition is a remote biometric technology that utilizes the dynamic characteristics of human movement to identify individuals even under various extreme lighting conditions. Due to the limitation in spatial perception capability inherent in 2D gait representations, LiDAR can directly capture 3D gait features and represent them as point clouds, reducing environmental and lighting interference in recognition while significantly advancing privacy protection. For complex 3D representations, shallow networks fail to achieve accurate recognition, making vision Transformers the foremost prevalent method. However, the prevalence of dumb patches has limited the widespread use of Transformer architecture in gait recognition. This paper proposes a method named HorGait, which utilizes a hybrid model with a Transformer architecture for gait recognition on the planar projection of 3D point clouds from LiDAR. Specifically, it employs a hybrid model structure called LHM Block to achieve input adaptation, long-range, and high-order spatial interaction of the Transformer architecture. Additionally, it uses large convolutional kernel CNNs to segment the input representation, replacing attention windows to reduce dumb patches. We conducted extensive experiments, and the results show that HorGait achieves state-of-the-art performance among Transformer architecture methods on the SUSTech1K dataset, verifying that the hybrid model can complete the full Transformer process and perform better in point cloud planar projection. The outstanding performance of HorGait offers new insights for the future application of the Transformer architecture in gait recognition.