OG-PCL: Efficient Sparse Point Cloud Processing for Human Activity Recognition
作者: Jiuqi Yan, Chendong Xu, Dongyu Liu
分类: eess.SP, cs.CV
发布日期: 2025-11-12
💡 一句话要点
提出OG-PCL网络,用于高效处理稀疏雷达点云的人体活动识别
🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)
关键词: 人体活动识别 毫米波雷达 稀疏点云 三视图CNN Bi-LSTM
📋 核心要点
- 基于摄像头的HAR方法存在隐私泄露风险,而基于可穿戴设备的方法佩戴不便,毫米波雷达提供了一种隐私保护且鲁棒的替代方案。
- OG-PCL网络采用三视图并行CNN结构,结合Bi-LSTM,有效提取点云的空间信息和时序特征,并引入Occupancy-Gated Convolution处理稀疏性。
- 实验结果表明,OG-PCL在RadHAR数据集上取得了91.75%的准确率,参数量仅为0.83M,优于现有方法,适合轻量级平台部署。
📝 摘要(中文)
本文提出了一种名为Occupancy-Gated Parallel-CNN Bi-LSTM (OG-PCL)的网络,用于处理毫米波雷达生成的稀疏3D点云,以实现人体活动识别(HAR)。该方法旨在轻量化部署,参数量仅为0.83M,在RadHAR数据集上实现了91.75%的准确率,优于现有的2D CNN、PointNet和3D CNN等基线方法。通过消融实验验证了三视图并行结构在保持三维空间信息的同时提高效率的优势。此外,本文还引入了Occupancy-Gated Convolution (OGConv)块,并证明了其占用补偿机制对于处理稀疏点云的必要性。因此,所提出的OG-PCL为轻量级平台上基于雷达的实时HAR提供了一个紧凑而准确的框架。
🔬 方法详解
问题定义:毫米波雷达生成的人体活动点云数据通常非常稀疏,这给有效提取特征带来了挑战。现有的方法,如直接应用3D CNN,计算量大,难以在资源受限的设备上部署。PointNet等方法虽然可以处理点云,但忽略了点云的空间结构信息。因此,如何在保持精度的同时,降低计算复杂度,是该论文要解决的关键问题。
核心思路:论文的核心思路是利用三视图并行CNN结构,从不同的视角提取点云的特征,并结合Bi-LSTM来捕捉时序信息。同时,针对点云的稀疏性,引入Occupancy-Gated Convolution (OGConv)模块,通过占用补偿机制来提高特征提取的鲁棒性。这种设计旨在在保持空间信息的同时,降低计算复杂度,并有效处理稀疏点云。
技术框架:OG-PCL网络主要由三个部分组成:1) 三视图并行CNN:将3D点云投影到三个正交平面上,分别使用2D CNN提取特征;2) Occupancy-Gated Convolution (OGConv)块:用于补偿点云的稀疏性,提高特征提取的鲁棒性;3) Bi-LSTM:用于捕捉人体活动的时序信息。整个流程是,首先将3D点云输入到三视图并行CNN中,提取特征,然后通过OGConv块进行稀疏性补偿,最后将特征输入到Bi-LSTM中进行时序建模,得到最终的分类结果。
关键创新:该论文的关键创新点在于:1) 提出了Occupancy-Gated Convolution (OGConv)块,用于处理稀疏点云,这是与现有方法的主要区别。传统的卷积操作在稀疏点云上效果不佳,因为大量的零值会影响特征提取。OGConv通过引入占用信息,对卷积结果进行补偿,从而提高了特征提取的鲁棒性。2) 采用了三视图并行CNN结构,可以在保持空间信息的同时,降低计算复杂度。
关键设计:OGConv块的设计是关键。它首先计算每个卷积核的占用率,然后根据占用率对卷积结果进行加权。具体来说,对于每个卷积核,计算其覆盖的非零像素的比例,作为该卷积核的占用率。然后,将卷积结果乘以占用率,作为最终的输出。Bi-LSTM的隐藏层大小设置为128。损失函数采用交叉熵损失函数。
📊 实验亮点
OG-PCL在RadHAR数据集上取得了91.75%的准确率,超过了现有的2D CNN、PointNet和3D CNN等基线方法。尤其值得一提的是,OG-PCL的参数量仅为0.83M,远小于其他方法,这使得它非常适合在资源受限的设备上部署。消融实验验证了三视图并行结构和OGConv块的有效性,证明了它们对于提高性能的重要性。
🎯 应用场景
该研究成果可广泛应用于智能家居、养老监护、医疗健康等领域。例如,在智能家居中,可以通过毫米波雷达识别用户的活动状态,从而实现智能化的控制和管理。在养老监护中,可以实时监测老年人的活动,及时发现异常情况并发出警报。在医疗健康领域,可以用于康复训练的监测和评估,提高康复效果。该技术具有隐私保护的优势,有望在未来得到更广泛的应用。
📄 摘要(原文)
Human activity recognition (HAR) with millimeter-wave (mmWave) radar offers a privacy-preserving and robust alternative to camera- and wearable-based approaches. In this work, we propose the Occupancy-Gated Parallel-CNN Bi-LSTM (OG-PCL) network to process sparse 3D radar point clouds produced by mmWave sensing. Designed for lightweight deployment, the parameter size of the proposed OG-PCL is only 0.83M and achieves 91.75 accuracy on the RadHAR dataset, outperforming those existing baselines such as 2D CNN, PointNet, and 3D CNN methods. We validate the advantages of the tri-view parallel structure in preserving spatial information across three dimensions while maintaining efficiency through ablation studies. We further introduce the Occupancy-Gated Convolution (OGConv) block and demonstrate the necessity of its occupancy compensation mechanism for handling sparse point clouds. The proposed OG-PCL thus offers a compact yet accurate framework for real-time radar-based HAR on lightweight platforms.