MM-Gesture: Towards Precise Micro-Gesture Recognition through Multimodal Fusion

📄 arXiv: 2507.08344v2 📥 PDF

作者: Jihao Gu, Fei Wang, Kun Li, Yanyan Wei, Zhiliang Wu, Dan Guo

分类: cs.CV

发布日期: 2025-07-11 (更新: 2025-08-05)

备注: 1st Place in Micro-gesture Classification sub-challenge in 3rd MiGA at IJCAI 2025

🔗 代码/项目: GITHUB


💡 一句话要点

MM-Gesture:通过多模态融合实现精准的微手势识别

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 微手势识别 多模态融合 PoseConv3D Video Swin Transformer 模态加权 迁移学习 人机交互

📋 核心要点

  1. 现有方法在微手势识别中难以有效融合多模态信息,导致识别精度受限。
  2. MM-Gesture通过多模态融合框架,结合PoseConv3D和Video Swin Transformer,提取互补特征。
  3. 在iMiGUE基准测试中,MM-Gesture取得了73.213%的top-1准确率,超越了现有技术水平。

📝 摘要(中文)

本文介绍了MM-Gesture,这是HFUT-VUT团队开发的解决方案,在IJCAI 2025第三届MiGA挑战赛的微手势分类赛道中排名第一,与以往最先进的方法相比,实现了卓越的性能。MM-Gesture是一个多模态融合框架,专为识别细微且短时的微手势(MGs)而设计,集成了来自关节、肢体、RGB视频、泰勒级数视频、光流视频和深度视频模态的互补线索。该方法利用PoseConv3D和Video Swin Transformer架构,并采用了一种新颖的模态加权集成策略,通过在更大的MA-52数据集上进行预训练的迁移学习,进一步提高了RGB模态的性能。在iMiGUE基准上进行的大量实验,包括跨不同模态的消融研究,验证了我们提出的方法的有效性,实现了73.213%的top-1准确率。代码可在https://github.com/momiji-bit/MM-Gesture获取。

🔬 方法详解

问题定义:论文旨在解决微手势识别中,由于手势细微、持续时间短,以及不同模态信息难以有效融合的问题。现有方法通常难以充分利用多模态数据中的互补信息,导致识别精度不高。

核心思路:论文的核心思路是通过多模态融合,充分利用来自关节、肢体、RGB视频、泰勒级数视频、光流视频和深度视频等多种模态的互补信息。通过学习不同模态的权重,实现更有效的特征融合,从而提高微手势识别的准确率。

技术框架:MM-Gesture框架主要包含以下几个模块:1) 多模态特征提取:使用PoseConv3D提取关节和肢体特征,使用Video Swin Transformer提取RGB、泰勒级数、光流和深度视频特征。2) 模态加权:学习不同模态的权重,以突出重要模态的作用。3) 特征融合:将不同模态的特征进行融合,得到最终的特征表示。4) 分类器:使用分类器对融合后的特征进行分类,得到微手势的识别结果。

关键创新:论文的关键创新在于:1) 提出了一个多模态融合框架,能够有效利用多种模态的信息。2) 提出了一种新颖的模态加权集成策略,能够自适应地学习不同模态的权重。3) 利用在更大数据集MA-52上预训练的迁移学习,提升了RGB模态的性能。

关键设计:在网络结构方面,使用了PoseConv3D和Video Swin Transformer作为特征提取器。在模态加权方面,采用可学习的权重参数,通过反向传播进行优化。在损失函数方面,使用了交叉熵损失函数。RGB模态的迁移学习使用了在MA-52数据集上预训练的模型。

🖼️ 关键图片

fig_0

📊 实验亮点

MM-Gesture在iMiGUE基准测试中取得了显著的性能提升,top-1准确率达到73.213%,超越了以往最先进的方法。消融实验表明,多模态融合和模态加权策略对性能提升有重要贡献。此外,通过在MA-52数据集上进行预训练的迁移学习,进一步提高了RGB模态的性能。

🎯 应用场景

该研究成果可应用于人机交互、虚拟现实、医疗康复等领域。通过精准识别微手势,可以实现更自然、更高效的人机交互方式。例如,在医疗康复领域,可以利用微手势识别技术辅助医生进行诊断和治疗,提高康复效果。未来,该技术有望在智能家居、智能穿戴设备等领域得到广泛应用。

📄 摘要(原文)

In this paper, we present MM-Gesture, the solution developed by our team HFUT-VUT, which ranked 1st in the micro-gesture classification track of the 3rd MiGA Challenge at IJCAI 2025, achieving superior performance compared to previous state-of-the-art methods. MM-Gesture is a multimodal fusion framework designed specifically for recognizing subtle and short-duration micro-gestures (MGs), integrating complementary cues from joint, limb, RGB video, Taylor-series video, optical-flow video, and depth video modalities. Utilizing PoseConv3D and Video Swin Transformer architectures with a novel modality-weighted ensemble strategy, our method further enhances RGB modality performance through transfer learning pre-trained on the larger MA-52 dataset. Extensive experiments on the iMiGUE benchmark, including ablation studies across different modalities, validate the effectiveness of our proposed approach, achieving a top-1 accuracy of 73.213%. Code is available at: https://github.com/momiji-bit/MM-Gesture.