Dynamic LIBRAS Gesture Recognition via CNN over Spatiotemporal Matrix Representation

作者: Jasmine Moreira

分类: cs.CV, cs.AI

发布日期: 2026-03-26

备注: 6 pages, 10 figures, 1 table

💡 一句话要点

提出基于时空矩阵和CNN的动态LIBRAS手势识别方法，用于家庭自动化设备控制

🎯 匹配领域: 支柱八：物理动画 (Physics-based Animation)

关键词: 动态手势识别 卷积神经网络 时空矩阵 巴西手语 家庭自动化

📋 核心要点

现有动态手势识别方法在光照变化和用户差异性方面存在挑战，影响了其在实际场景中的应用。
该论文提出利用MediaPipe提取手部关键点，构建时空矩阵，并使用CNN进行手势分类，无需循环网络。
实验结果表明，该方法在弱光和正常光照条件下均取得了较高的识别准确率，验证了其有效性。

📝 摘要（中文）

本文提出了一种基于动态手势识别的方法，该方法由两个模型组成：MediaPipe Hand Landmarker，负责提取手部的21个骨骼关键点；以及一个卷积神经网络（CNN），该网络经过训练，可以根据这些关键点的90x21维时空矩阵表示对姿势进行分类。该方法应用于LIBRAS（巴西手语）手势的识别，用于家庭自动化系统中的设备控制，涵盖11类静态和动态手势。对于实时推理，使用具有时间帧三倍化的滑动窗口，从而实现无需循环网络的连续识别。在弱光条件下，测试达到了95%的准确率，在正常光照条件下达到了92%的准确率。结果表明该方法有效，但需要进行更多用户多样性的系统实验，以便更彻底地评估泛化能力。

🔬 方法详解

问题定义：论文旨在解决动态LIBRAS（巴西手语）手势识别问题，用于家庭自动化设备控制。现有方法可能在光照变化、用户差异性以及实时性方面存在不足，难以满足实际应用需求。特别是，如何有效地提取和利用手势的时序信息是一个关键挑战。

核心思路：论文的核心思路是将动态手势表示为时空矩阵，利用CNN提取空间和时间上的特征。通过MediaPipe提取手部关键点，并将这些关键点在时间序列上的变化组合成一个矩阵，从而将动态手势转化为静态图像进行处理。这种方法避免了使用循环神经网络（RNN），降低了计算复杂度，并提高了实时性。

技术框架：整体框架包括两个主要模块：1) 手部关键点提取模块：使用MediaPipe Hand Landmarker提取手部的21个关键点坐标。2) 手势分类模块：将关键点坐标构建成90x21的时空矩阵，输入到CNN中进行分类。为了实现实时推理，采用滑动窗口方法，并对时间帧进行三倍化处理。

关键创新：该方法的主要创新在于使用时空矩阵表示动态手势，并利用CNN进行分类。这种方法将动态手势识别问题转化为静态图像分类问题，避免了使用RNN，从而提高了实时性和降低了计算复杂度。此外，使用滑动窗口和时间帧三倍化技术，实现了连续手势识别。

关键设计：时空矩阵的维度为90x21，其中90表示时间帧数（通过滑动窗口获得），21表示手部关键点的数量。CNN的具体结构未知，但其目标是学习时空矩阵中的特征，并将其映射到11个手势类别。滑动窗口的大小和步长需要根据实际应用进行调整，以平衡识别准确率和实时性。时间帧三倍化的具体实现方式未知，但其目的是增加时间信息的冗余，提高识别的鲁棒性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在弱光条件下达到了95%的准确率，在正常光照条件下达到了92%的准确率。这些结果表明，该方法在不同的光照条件下都具有较好的鲁棒性。虽然论文中没有明确与其他方法的对比，但这些结果表明该方法具有一定的竞争力。未来的工作需要进行更全面的实验，包括与其他方法的对比，以及在更大规模的用户群体中进行测试。

🎯 应用场景

该研究成果可应用于智能家居、虚拟现实、人机交互等领域。通过识别手势，用户可以方便地控制智能设备，例如开关灯、调节音量等。该技术还可以用于开发手语翻译系统，帮助听力障碍人士更好地与社会交流。未来，该技术有望进一步推广到其他领域，例如医疗康复、工业自动化等。

📄 摘要（原文）

This paper proposes a method for dynamic hand gesture recognition based on the composition of two models: the MediaPipe Hand Landmarker, responsible for extracting 21 skeletal keypoints of the hand, and a convolutional neural network (CNN) trained to classify gestures from a spatiotemporal matrix representation of dimensions 90 by 21 of those keypoints. The method is applied to the recognition of LIBRAS (Brazilian Sign Language) gestures for device control in a home automation system, covering 11 classes of static and dynamic gestures. For real-time inference, a sliding window with temporal frame triplication is used, enabling continuous recognition without recurrent networks. Tests achieved 95\% accuracy under low-light conditions and 92\% under normal lighting. The results indicate that the approach is effective, although systematic experiments with greater user diversity are needed for a more thorough evaluation of generalization.

Dynamic LIBRAS Gesture Recognition via CNN over Spatiotemporal Matrix Representation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理