Self-supervised Learning Matters: A Simple Ensemble Solution for Micro-Gesture Recognition

作者: Tingyi Liu, Kun Li, Fei Wang, Junjie Chen, Zhiliang Wu, Jihao Gu, Haixu Liu, Dan Guo

分类: cs.CV

发布日期: 2026-06-08

💡 一句话要点

提出多模态集成框架以解决微手势识别问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 微手势识别 自监督学习 多模态集成 特征表示 视频建模

📋 核心要点

现有微手势识别方法在处理未标记数据时表现不佳，难以学习有效的特征表示。
论文提出了一种多模态集成框架，结合自监督RGB模型与监督多流模型，以提升微手势识别性能。
实验结果显示，最终集成模型在iMiGUE测试集上达到74.419%的Top-1准确率，较之前方法提升1.206个百分点。

📝 摘要（中文）

本文介绍了XInsight Lab在2026年IJCAI第四届MiGA挑战赛微手势分类赛道中的解决方案，该方案获得第一名并创造了新的最先进结果。我们提出了一种多模态集成框架，将自监督RGB模型与之前解决方案中的监督多流模型相结合。自监督RGB模型在120K未标记视频片段上通过掩蔽视频建模进行预训练，然后在iMiGUE数据集上进行微调。该RGB基线在iMiGUE测试集上实现了69.224%的Top-1准确率，展示了从未标记的领域内视频中学习可迁移表示的优势。最终集成模型的Top-1准确率达到了74.419%，超越了之前的最先进结果1.206个百分点。对iMiGUE的实验结果，包括对集成策略的消融研究，验证了自监督RGB表示学习在微手势识别中的有效性。

🔬 方法详解

问题定义：本文旨在解决微手势识别中的特征学习问题，现有方法在未标记数据的利用上存在不足，导致模型性能受限。

核心思路：通过引入自监督学习的RGB模型，利用未标记视频数据进行预训练，从而学习到更具迁移性的特征表示，进而与监督学习的多流模型进行集成。

技术框架：整体架构包括自监督RGB模型和多个监督多流模型。自监督模型在120K未标记视频上进行预训练，随后在iMiGUE数据集上进行微调，最终与其他模型进行集成以提升识别准确率。

关键创新：最重要的创新在于将自监督学习与传统监督学习相结合，利用未标记数据的潜在信息，显著提升了微手势识别的性能。

关键设计：自监督RGB模型采用掩蔽视频建模技术，损失函数设计为适应未标记数据的特征学习，网络结构经过优化以提高在iMiGUE数据集上的表现。具体参数设置和网络架构细节在实验部分进行了详细描述。

🖼️ 关键图片

📊 实验亮点

实验结果显示，提出的自监督RGB模型在iMiGUE测试集上实现了69.224%的Top-1准确率，最终集成模型的Top-1准确率达到了74.419%，超越了之前的最先进结果1.206个百分点，验证了自监督学习在微手势识别中的有效性。

🎯 应用场景

该研究的潜在应用领域包括人机交互、虚拟现实和增强现实等场景，能够提升设备对微手势的识别能力，进而改善用户体验。未来，该技术有望在智能家居、医疗监护等领域发挥重要作用，推动相关技术的发展与应用。

📄 摘要（原文）

In this paper, we present XInsight Lab's solution to the micro-gesture classification track of the 4th MiGA Challenge at IJCAI 2026, in which our solution ranked first and achieved a new state-of-the-art result. We propose a multimodal ensemble framework that integrates a self-supervised RGB-based model with supervised multi-stream models from previous solutions. The self-supervised RGB model is pretrained on 120K unlabeled clips via masked video modeling and then fine-tuned on iMiGUE. This simple yet effective RGB baseline achieves 69.224% top-1 accuracy on the iMiGUE test set, demonstrating the benefit of learning transferable representations from unlabeled in-domain videos. By incorporating this model as a complementary branch, the final ensemble reaches 74.419% top-1 accuracy, surpassing the previous state of the art by 1.206 percentage points. Experimental results on iMiGUE, including ablation studies on the ensemble strategy, validate the effectiveness of self-supervised RGB representation learning for micro-gesture recognition.

Self-supervised Learning Matters: A Simple Ensemble Solution for Micro-Gesture Recognition

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理