Human Action Recognition from Point Clouds over Time

📄 arXiv: 2510.05506v3 📥 PDF

作者: James Dickens

分类: cs.CV

发布日期: 2025-10-07 (更新: 2025-10-09)


💡 一句话要点

提出一种基于点云序列的人体动作识别框架,结合点云和稀疏卷积网络。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 人体动作识别 点云处理 稀疏卷积网络 3D视频 深度学习

📋 核心要点

  1. 现有动作识别方法主要集中在骨骼动作识别和视频方法,缺乏对密集3D点云数据的有效利用。
  2. 提出一种新颖的框架,通过分割、跟踪和身体部位分割处理3D点云,并结合点云技术和稀疏卷积网络。
  3. 在NTU RGB-D 120数据集上,该方法与骨骼动作识别算法具有竞争力,集成传感器和估计深度输入时,准确率达到89.3%。

📝 摘要(中文)

本文提出了一种新颖的3D视频人体动作识别方法,该方法首先从场景背景中分割人体点云,然后随时间跟踪个体,并执行身体部位分割。该方法支持来自深度传感器和单目深度估计的点云。该HAR框架的核心是一种新颖的3D动作识别骨干网络,它结合了基于点的技术和应用于体素映射点云序列的稀疏卷积网络。实验结合了辅助点特征,包括表面法线、颜色、红外强度和身体部位解析标签,以提高识别精度。在NTU RGB-D 120数据集上的评估表明,该方法与现有的骨骼动作识别算法具有竞争力。此外,在集成设置中结合基于传感器和估计的深度输入,当考虑不同的训练和测试对象时,该方法实现了89.3%的准确率,优于以往的点云动作识别方法。

🔬 方法详解

问题定义:现有的人体动作识别方法主要依赖于骨骼数据或RGB视频,而忽略了日益普及的深度传感器和激光雷达产生的密集3D点云数据。如何有效地利用这些3D点云数据进行人体动作识别是一个挑战。现有的点云动作识别方法可能无法充分利用点云的时序信息和几何特征,导致识别精度不高。

核心思路:本文的核心思路是将点云数据转换为体素表示,然后利用稀疏卷积网络提取时空特征。同时,结合点云的几何特征(如表面法线)和外观特征(如颜色、红外强度)来增强识别能力。通过集成来自不同深度源(传感器和单目深度估计)的信息,进一步提高鲁棒性和准确性。

技术框架:该框架主要包含以下几个阶段:1) 点云分割:将人体点云从背景中分割出来。2) 个体跟踪:随时间跟踪个体。3) 身体部位分割:将人体点云分割成不同的身体部位。4) 特征提取:提取点云的几何特征(表面法线)和外观特征(颜色、红外强度)。5) 动作识别:将点云序列体素化,然后使用稀疏卷积网络提取时空特征,并进行动作分类。

关键创新:该方法的主要创新点在于:1) 提出了一种新的3D动作识别骨干网络,该网络结合了基于点的技术和稀疏卷积网络,能够有效地处理点云序列。2) 利用辅助点特征(表面法线、颜色、红外强度、身体部位解析标签)来增强识别精度。3) 集成了来自不同深度源的信息,提高了鲁棒性。

关键设计:该方法使用稀疏卷积网络来处理体素化的点云序列,以减少计算量和内存消耗。体素大小是一个关键参数,需要根据点云的密度和动作的尺度进行调整。损失函数通常采用交叉熵损失函数,用于训练动作分类器。网络结构的选择也会影响性能,需要根据数据集的特点进行调整。

📊 实验亮点

该方法在NTU RGB-D 120数据集上取得了显著成果。在跨被试设置下,该方法达到了89.3%的准确率,超过了以往的点云动作识别方法。通过结合传感器数据和单目深度估计数据,该方法展现了良好的鲁棒性和泛化能力。实验结果表明,辅助点特征的引入能够有效提高识别精度。

🎯 应用场景

该研究成果可应用于智能监控、人机交互、康复医疗等领域。例如,在智能监控中,可以利用该方法识别异常行为;在人机交互中,可以实现基于手势或身体动作的控制;在康复医疗中,可以评估患者的康复进度。未来,该技术有望在机器人导航、自动驾驶等领域发挥重要作用。

📄 摘要(原文)

Recent research into human action recognition (HAR) has focused predominantly on skeletal action recognition and video-based methods. With the increasing availability of consumer-grade depth sensors and Lidar instruments, there is a growing opportunity to leverage dense 3D data for action recognition, to develop a third way. This paper presents a novel approach for recognizing actions from 3D videos by introducing a pipeline that segments human point clouds from the background of a scene, tracks individuals over time, and performs body part segmentation. The method supports point clouds from both depth sensors and monocular depth estimation. At the core of the proposed HAR framework is a novel backbone for 3D action recognition, which combines point-based techniques with sparse convolutional networks applied to voxel-mapped point cloud sequences. Experiments incorporate auxiliary point features including surface normals, color, infrared intensity, and body part parsing labels, to enhance recognition accuracy. Evaluation on the NTU RGB- D 120 dataset demonstrates that the method is competitive with existing skeletal action recognition algorithms. Moreover, combining both sensor-based and estimated depth inputs in an ensemble setup, this approach achieves 89.3% accuracy when different human subjects are considered for training and testing, outperforming previous point cloud action recognition methods.