A Methodological and Structural Review of Hand Gesture Recognition Across Diverse Data Modalities

📄 arXiv: 2408.05436v1 📥 PDF

作者: Jungpil Shin, Abu Saleh Musa Miah, Md. Humaun Kabir, Md. Abdur Rahim, Abdullah Al Shiam

分类: cs.CV

发布日期: 2024-08-10

期刊: IEEE Access-09 September 2024

DOI: 10.1109/ACCESS.2024.3456436


💡 一句话要点

综述性研究:对手势识别中不同数据模态的方法与结构进行回顾分析。

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 手势识别 人机交互 深度学习 多模态融合 计算机视觉 数据模态 连续手势识别

📋 核心要点

  1. 手势识别面临的挑战在于如何自动且精确地识别手势,现有方法在连续手势识别方面存在不足。
  2. 本文通过对多种数据模态的手势识别技术进行综述,旨在为研究人员提供一个全面的指导。
  3. 该研究回顾了2014年至2024年间手势识别领域的进展,包括数据收集、手势表示和识别准确率等方面。

📝 摘要(中文)

本文全面回顾了2014年至2024年间手势识别(HGR)技术和数据模态的进展,旨在提升自然、高效和真实的人机交互体验,尤其关注依赖手势进行交流的人群。尽管手势识别取得了显著进展,但在计算机视觉中自动、精确地识别手势仍然是一个巨大的挑战。本文考察了RGB图像、骨骼数据和时空兴趣点等特定模态的研究,重点介绍了RGB、骨骼、深度、音频、EMG、EEG和多模态等方法所取得的成就,并指出了需要进一步研究的领域。通过对主要数据库中200多篇文章的分析,重点关注数据收集、数据设置和手势表示,评估了HGR系统的识别准确率,并发现连续手势识别研究存在差距,表明需要改进基于视觉的手势系统。该领域在手工特征和深度学习(DL)技术方面取得了稳步进展。此外,本文还报告了HGR方法和多模态方法领域中充满希望的进展。希望本次调研能为基于不同数据模态的手势识别研究提供潜在的指导。

🔬 方法详解

问题定义:手势识别旨在实现自然、高效的人机交互,但现有方法在自动、精确识别手势方面仍面临挑战,尤其是在连续手势识别方面。现有方法在处理不同数据模态,例如RGB图像、骨骼数据、深度数据、音频数据、EMG和EEG信号时,存在性能差异和局限性。因此,需要更有效的手势识别方法,特别是针对连续手势的识别。

核心思路:本文的核心思路是通过对现有手势识别技术和数据模态进行全面的回顾和分析,总结各种方法的优缺点,并识别未来研究的潜在方向。通过分析不同数据模态(如RGB、骨骼、深度等)的特点,以及各种手势表示方法和识别算法的性能,为研究人员提供一个全面的参考框架。

技术框架:本文采用文献综述的方法,对2014年至2024年间发表的200多篇相关论文进行分析。首先,确定研究范围和关键词,从主要数据库中检索相关文献。然后,对文献进行筛选和分类,按照数据模态、手势表示方法、识别算法等进行组织。最后,对各种方法的性能进行比较和分析,总结现有方法的优缺点,并提出未来研究的潜在方向。

关键创新:本文的创新之处在于对多种数据模态的手势识别技术进行了全面的综述,并识别了连续手势识别研究的差距。此外,本文还总结了手工特征和深度学习技术在手势识别中的应用,并对多模态方法的发展进行了展望。通过对现有研究的系统分析,为未来的研究提供了有价值的指导。

关键设计:本文主要关注数据收集方法、数据设置和手势表示方法。对于数据收集,关注数据集的大小、采集环境和参与者特征。对于数据设置,关注训练集、验证集和测试集的划分。对于手势表示,关注手工特征(如HOG、SIFT)和深度学习特征(如CNN、RNN)的选择。此外,本文还关注识别算法的选择,包括传统机器学习算法(如SVM、HMM)和深度学习算法(如CNN、RNN、Transformer)。

📊 实验亮点

该综述分析了超过200篇手势识别相关的论文,涵盖了RGB、骨骼、深度、音频、EMG和EEG等多种数据模态。研究结果表明,深度学习方法在手势识别中取得了显著进展,但连续手势识别仍然是一个挑战。此外,多模态融合方法可以提高手势识别的准确性和鲁棒性。该综述还指出了未来研究的潜在方向,例如个性化手势识别和基于弱监督学习的手势识别。

🎯 应用场景

手势识别技术具有广泛的应用前景,包括虚拟现实/增强现实、人机交互、辅助技术(帮助残疾人进行交流)、游戏、机器人控制等领域。通过提高手势识别的准确性和鲁棒性,可以改善用户体验,并为各种应用场景提供更自然、更便捷的交互方式。未来的研究可以关注连续手势识别、多模态融合和个性化手势识别等方面。

📄 摘要(原文)

Researchers have been developing Hand Gesture Recognition (HGR) systems to enhance natural, efficient, and authentic human-computer interaction, especially benefiting those who rely solely on hand gestures for communication. Despite significant progress, the automatic and precise identification of hand gestures remains a considerable challenge in computer vision. Recent studies have focused on specific modalities like RGB images, skeleton data, and spatiotemporal interest points. This paper provides a comprehensive review of HGR techniques and data modalities from 2014 to 2024, exploring advancements in sensor technology and computer vision. We highlight accomplishments using various modalities, including RGB, Skeleton, Depth, Audio, EMG, EEG, and Multimodal approaches and identify areas needing further research. We reviewed over 200 articles from prominent databases, focusing on data collection, data settings, and gesture representation. Our review assesses the efficacy of HGR systems through their recognition accuracy and identifies a gap in research on continuous gesture recognition, indicating the need for improved vision-based gesture systems. The field has experienced steady research progress, including advancements in hand-crafted features and deep learning (DL) techniques. Additionally, we report on the promising developments in HGR methods and the area of multimodal approaches. We hope this survey will serve as a potential guideline for diverse data modality-based HGR research.