Self-supervised Learning Matters: A Simple Ensemble Solution for Micro-Gesture Recognition

📄 arXiv: 2606.09261v1 📥 PDF

作者: Tingyi Liu, Kun Li, Fei Wang, Junjie Chen, Zhiliang Wu, Jihao Gu, Haixu Liu, Dan Guo

分类: cs.CV

发布日期: 2026-06-08


💡 一句话要点

提出多模态集成框架以解决微手势识别问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 微手势识别 自监督学习 多模态集成 特征表示 视频建模

📋 核心要点

  1. 现有微手势识别方法在处理未标记数据时表现不佳,难以学习有效的特征表示。
  2. 论文提出了一种多模态集成框架,结合自监督RGB模型与监督多流模型,以提升微手势识别性能。
  3. 实验结果显示,最终集成模型在iMiGUE测试集上达到74.419%的Top-1准确率,较之前方法提升1.206个百分点。

📝 摘要(中文)

本文介绍了XInsight Lab在2026年IJCAI第四届MiGA挑战赛微手势分类赛道中的解决方案,该方案获得第一名并创造了新的最先进结果。我们提出了一种多模态集成框架,将自监督RGB模型与之前解决方案中的监督多流模型相结合。自监督RGB模型在120K未标记视频片段上通过掩蔽视频建模进行预训练,然后在iMiGUE数据集上进行微调。该RGB基线在iMiGUE测试集上实现了69.224%的Top-1准确率,展示了从未标记的领域内视频中学习可迁移表示的优势。最终集成模型的Top-1准确率达到了74.419%,超越了之前的最先进结果1.206个百分点。对iMiGUE的实验结果,包括对集成策略的消融研究,验证了自监督RGB表示学习在微手势识别中的有效性。

🔬 方法详解

问题定义:本文旨在解决微手势识别中的特征学习问题,现有方法在未标记数据的利用上存在不足,导致模型性能受限。

核心思路:通过引入自监督学习的RGB模型,利用未标记视频数据进行预训练,从而学习到更具迁移性的特征表示,进而与监督学习的多流模型进行集成。

技术框架:整体架构包括自监督RGB模型和多个监督多流模型。自监督模型在120K未标记视频上进行预训练,随后在iMiGUE数据集上进行微调,最终与其他模型进行集成以提升识别准确率。

关键创新:最重要的创新在于将自监督学习与传统监督学习相结合,利用未标记数据的潜在信息,显著提升了微手势识别的性能。

关键设计:自监督RGB模型采用掩蔽视频建模技术,损失函数设计为适应未标记数据的特征学习,网络结构经过优化以提高在iMiGUE数据集上的表现。具体参数设置和网络架构细节在实验部分进行了详细描述。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果显示,提出的自监督RGB模型在iMiGUE测试集上实现了69.224%的Top-1准确率,最终集成模型的Top-1准确率达到了74.419%,超越了之前的最先进结果1.206个百分点,验证了自监督学习在微手势识别中的有效性。

🎯 应用场景

该研究的潜在应用领域包括人机交互、虚拟现实和增强现实等场景,能够提升设备对微手势的识别能力,进而改善用户体验。未来,该技术有望在智能家居、医疗监护等领域发挥重要作用,推动相关技术的发展与应用。

📄 摘要(原文)

In this paper, we present XInsight Lab's solution to the micro-gesture classification track of the 4th MiGA Challenge at IJCAI 2026, in which our solution ranked first and achieved a new state-of-the-art result. We propose a multimodal ensemble framework that integrates a self-supervised RGB-based model with supervised multi-stream models from previous solutions. The self-supervised RGB model is pretrained on 120K unlabeled clips via masked video modeling and then fine-tuned on iMiGUE. This simple yet effective RGB baseline achieves 69.224% top-1 accuracy on the iMiGUE test set, demonstrating the benefit of learning transferable representations from unlabeled in-domain videos. By incorporating this model as a complementary branch, the final ensemble reaches 74.419% top-1 accuracy, surpassing the previous state of the art by 1.206 percentage points. Experimental results on iMiGUE, including ablation studies on the ensemble strategy, validate the effectiveness of self-supervised RGB representation learning for micro-gesture recognition.