Dynamic LIBRAS Gesture Recognition via CNN over Spatiotemporal Matrix Representation
作者: Jasmine Moreira
分类: cs.CV, cs.AI
发布日期: 2026-03-26
备注: 6 pages, 10 figures, 1 table
💡 一句话要点
提出基于时空矩阵和CNN的动态LIBRAS手势识别方法,用于家庭自动化设备控制
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)
关键词: 动态手势识别 卷积神经网络 时空矩阵 巴西手语 家庭自动化
📋 核心要点
- 现有动态手势识别方法在光照变化和用户差异性方面存在挑战,影响了其在实际场景中的应用。
- 该论文提出利用MediaPipe提取手部关键点,构建时空矩阵,并使用CNN进行手势分类,无需循环网络。
- 实验结果表明,该方法在弱光和正常光照条件下均取得了较高的识别准确率,验证了其有效性。
📝 摘要(中文)
本文提出了一种基于动态手势识别的方法,该方法由两个模型组成:MediaPipe Hand Landmarker,负责提取手部的21个骨骼关键点;以及一个卷积神经网络(CNN),该网络经过训练,可以根据这些关键点的90x21维时空矩阵表示对姿势进行分类。该方法应用于LIBRAS(巴西手语)手势的识别,用于家庭自动化系统中的设备控制,涵盖11类静态和动态手势。对于实时推理,使用具有时间帧三倍化的滑动窗口,从而实现无需循环网络的连续识别。在弱光条件下,测试达到了95%的准确率,在正常光照条件下达到了92%的准确率。结果表明该方法有效,但需要进行更多用户多样性的系统实验,以便更彻底地评估泛化能力。
🔬 方法详解
问题定义:论文旨在解决动态LIBRAS(巴西手语)手势识别问题,用于家庭自动化设备控制。现有方法可能在光照变化、用户差异性以及实时性方面存在不足,难以满足实际应用需求。特别是,如何有效地提取和利用手势的时序信息是一个关键挑战。
核心思路:论文的核心思路是将动态手势表示为时空矩阵,利用CNN提取空间和时间上的特征。通过MediaPipe提取手部关键点,并将这些关键点在时间序列上的变化组合成一个矩阵,从而将动态手势转化为静态图像进行处理。这种方法避免了使用循环神经网络(RNN),降低了计算复杂度,并提高了实时性。
技术框架:整体框架包括两个主要模块:1) 手部关键点提取模块:使用MediaPipe Hand Landmarker提取手部的21个关键点坐标。2) 手势分类模块:将关键点坐标构建成90x21的时空矩阵,输入到CNN中进行分类。为了实现实时推理,采用滑动窗口方法,并对时间帧进行三倍化处理。
关键创新:该方法的主要创新在于使用时空矩阵表示动态手势,并利用CNN进行分类。这种方法将动态手势识别问题转化为静态图像分类问题,避免了使用RNN,从而提高了实时性和降低了计算复杂度。此外,使用滑动窗口和时间帧三倍化技术,实现了连续手势识别。
关键设计:时空矩阵的维度为90x21,其中90表示时间帧数(通过滑动窗口获得),21表示手部关键点的数量。CNN的具体结构未知,但其目标是学习时空矩阵中的特征,并将其映射到11个手势类别。滑动窗口的大小和步长需要根据实际应用进行调整,以平衡识别准确率和实时性。时间帧三倍化的具体实现方式未知,但其目的是增加时间信息的冗余,提高识别的鲁棒性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在弱光条件下达到了95%的准确率,在正常光照条件下达到了92%的准确率。这些结果表明,该方法在不同的光照条件下都具有较好的鲁棒性。虽然论文中没有明确与其他方法的对比,但这些结果表明该方法具有一定的竞争力。未来的工作需要进行更全面的实验,包括与其他方法的对比,以及在更大规模的用户群体中进行测试。
🎯 应用场景
该研究成果可应用于智能家居、虚拟现实、人机交互等领域。通过识别手势,用户可以方便地控制智能设备,例如开关灯、调节音量等。该技术还可以用于开发手语翻译系统,帮助听力障碍人士更好地与社会交流。未来,该技术有望进一步推广到其他领域,例如医疗康复、工业自动化等。
📄 摘要(原文)
This paper proposes a method for dynamic hand gesture recognition based on the composition of two models: the MediaPipe Hand Landmarker, responsible for extracting 21 skeletal keypoints of the hand, and a convolutional neural network (CNN) trained to classify gestures from a spatiotemporal matrix representation of dimensions 90 by 21 of those keypoints. The method is applied to the recognition of LIBRAS (Brazilian Sign Language) gestures for device control in a home automation system, covering 11 classes of static and dynamic gestures. For real-time inference, a sliding window with temporal frame triplication is used, enabling continuous recognition without recurrent networks. Tests achieved 95\% accuracy under low-light conditions and 92\% under normal lighting. The results indicate that the approach is effective, although systematic experiments with greater user diversity are needed for a more thorough evaluation of generalization.