MM-Gesture: Towards Precise Micro-Gesture Recognition through Multimodal Fusion

作者: Jihao Gu, Fei Wang, Kun Li, Yanyan Wei, Zhiliang Wu, Dan Guo

分类: cs.CV

发布日期: 2025-07-11 (更新: 2025-08-05)

备注: 1st Place in Micro-gesture Classification sub-challenge in 3rd MiGA at IJCAI 2025

🔗 代码/项目: GITHUB

💡 一句话要点

MM-Gesture：通过多模态融合实现精准的微手势识别

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 微手势识别 多模态融合 PoseConv3D Video Swin Transformer 模态加权 迁移学习 人机交互

📋 核心要点

现有方法在微手势识别中难以有效融合多模态信息，导致识别精度受限。
MM-Gesture通过多模态融合框架，结合PoseConv3D和Video Swin Transformer，提取互补特征。
在iMiGUE基准测试中，MM-Gesture取得了73.213%的top-1准确率，超越了现有技术水平。

📝 摘要（中文）

本文介绍了MM-Gesture，这是HFUT-VUT团队开发的解决方案，在IJCAI 2025第三届MiGA挑战赛的微手势分类赛道中排名第一，与以往最先进的方法相比，实现了卓越的性能。MM-Gesture是一个多模态融合框架，专为识别细微且短时的微手势（MGs）而设计，集成了来自关节、肢体、RGB视频、泰勒级数视频、光流视频和深度视频模态的互补线索。该方法利用PoseConv3D和Video Swin Transformer架构，并采用了一种新颖的模态加权集成策略，通过在更大的MA-52数据集上进行预训练的迁移学习，进一步提高了RGB模态的性能。在iMiGUE基准上进行的大量实验，包括跨不同模态的消融研究，验证了我们提出的方法的有效性，实现了73.213%的top-1准确率。代码可在https://github.com/momiji-bit/MM-Gesture获取。

🔬 方法详解

问题定义：论文旨在解决微手势识别中，由于手势细微、持续时间短，以及不同模态信息难以有效融合的问题。现有方法通常难以充分利用多模态数据中的互补信息，导致识别精度不高。

核心思路：论文的核心思路是通过多模态融合，充分利用来自关节、肢体、RGB视频、泰勒级数视频、光流视频和深度视频等多种模态的互补信息。通过学习不同模态的权重，实现更有效的特征融合，从而提高微手势识别的准确率。

技术框架：MM-Gesture框架主要包含以下几个模块：1) 多模态特征提取：使用PoseConv3D提取关节和肢体特征，使用Video Swin Transformer提取RGB、泰勒级数、光流和深度视频特征。2) 模态加权：学习不同模态的权重，以突出重要模态的作用。3) 特征融合：将不同模态的特征进行融合，得到最终的特征表示。4) 分类器：使用分类器对融合后的特征进行分类，得到微手势的识别结果。

关键创新：论文的关键创新在于：1) 提出了一个多模态融合框架，能够有效利用多种模态的信息。2) 提出了一种新颖的模态加权集成策略，能够自适应地学习不同模态的权重。3) 利用在更大数据集MA-52上预训练的迁移学习，提升了RGB模态的性能。

关键设计：在网络结构方面，使用了PoseConv3D和Video Swin Transformer作为特征提取器。在模态加权方面，采用可学习的权重参数，通过反向传播进行优化。在损失函数方面，使用了交叉熵损失函数。RGB模态的迁移学习使用了在MA-52数据集上预训练的模型。

🖼️ 关键图片

📊 实验亮点

MM-Gesture在iMiGUE基准测试中取得了显著的性能提升，top-1准确率达到73.213%，超越了以往最先进的方法。消融实验表明，多模态融合和模态加权策略对性能提升有重要贡献。此外，通过在MA-52数据集上进行预训练的迁移学习，进一步提高了RGB模态的性能。

🎯 应用场景

该研究成果可应用于人机交互、虚拟现实、医疗康复等领域。通过精准识别微手势，可以实现更自然、更高效的人机交互方式。例如，在医疗康复领域，可以利用微手势识别技术辅助医生进行诊断和治疗，提高康复效果。未来，该技术有望在智能家居、智能穿戴设备等领域得到广泛应用。

📄 摘要（原文）

In this paper, we present MM-Gesture, the solution developed by our team HFUT-VUT, which ranked 1st in the micro-gesture classification track of the 3rd MiGA Challenge at IJCAI 2025, achieving superior performance compared to previous state-of-the-art methods. MM-Gesture is a multimodal fusion framework designed specifically for recognizing subtle and short-duration micro-gestures (MGs), integrating complementary cues from joint, limb, RGB video, Taylor-series video, optical-flow video, and depth video modalities. Utilizing PoseConv3D and Video Swin Transformer architectures with a novel modality-weighted ensemble strategy, our method further enhances RGB modality performance through transfer learning pre-trained on the larger MA-52 dataset. Extensive experiments on the iMiGUE benchmark, including ablation studies across different modalities, validate the effectiveness of our proposed approach, achieving a top-1 accuracy of 73.213%. Code is available at: https://github.com/momiji-bit/MM-Gesture.

MM-Gesture: Towards Precise Micro-Gesture Recognition through Multimodal Fusion

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理