Self-supervised Learning Matters: A Simple Ensemble Solution for Micro-Gesture Recognition
作者: Tingyi Liu, Kun Li, Fei Wang, Junjie Chen, Zhiliang Wu, Jihao Gu, Haixu Liu, Dan Guo
分类: cs.CV
发布日期: 2026-06-08
💡 一句话要点
提出多模态集成框架以解决微手势识别问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 微手势识别 自监督学习 多模态集成 特征表示 视频建模
📋 核心要点
- 现有微手势识别方法在处理未标记数据时表现不佳,难以学习有效的特征表示。
- 论文提出了一种多模态集成框架,结合自监督RGB模型与监督多流模型,以提升微手势识别性能。
- 实验结果显示,最终集成模型在iMiGUE测试集上达到74.419%的Top-1准确率,较之前方法提升1.206个百分点。
📝 摘要(中文)
本文介绍了XInsight Lab在2026年IJCAI第四届MiGA挑战赛微手势分类赛道中的解决方案,该方案获得第一名并创造了新的最先进结果。我们提出了一种多模态集成框架,将自监督RGB模型与之前解决方案中的监督多流模型相结合。自监督RGB模型在120K未标记视频片段上通过掩蔽视频建模进行预训练,然后在iMiGUE数据集上进行微调。该RGB基线在iMiGUE测试集上实现了69.224%的Top-1准确率,展示了从未标记的领域内视频中学习可迁移表示的优势。最终集成模型的Top-1准确率达到了74.419%,超越了之前的最先进结果1.206个百分点。对iMiGUE的实验结果,包括对集成策略的消融研究,验证了自监督RGB表示学习在微手势识别中的有效性。
🔬 方法详解
问题定义:本文旨在解决微手势识别中的特征学习问题,现有方法在未标记数据的利用上存在不足,导致模型性能受限。
核心思路:通过引入自监督学习的RGB模型,利用未标记视频数据进行预训练,从而学习到更具迁移性的特征表示,进而与监督学习的多流模型进行集成。
技术框架:整体架构包括自监督RGB模型和多个监督多流模型。自监督模型在120K未标记视频上进行预训练,随后在iMiGUE数据集上进行微调,最终与其他模型进行集成以提升识别准确率。
关键创新:最重要的创新在于将自监督学习与传统监督学习相结合,利用未标记数据的潜在信息,显著提升了微手势识别的性能。
关键设计:自监督RGB模型采用掩蔽视频建模技术,损失函数设计为适应未标记数据的特征学习,网络结构经过优化以提高在iMiGUE数据集上的表现。具体参数设置和网络架构细节在实验部分进行了详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果显示,提出的自监督RGB模型在iMiGUE测试集上实现了69.224%的Top-1准确率,最终集成模型的Top-1准确率达到了74.419%,超越了之前的最先进结果1.206个百分点,验证了自监督学习在微手势识别中的有效性。
🎯 应用场景
该研究的潜在应用领域包括人机交互、虚拟现实和增强现实等场景,能够提升设备对微手势的识别能力,进而改善用户体验。未来,该技术有望在智能家居、医疗监护等领域发挥重要作用,推动相关技术的发展与应用。
📄 摘要(原文)
In this paper, we present XInsight Lab's solution to the micro-gesture classification track of the 4th MiGA Challenge at IJCAI 2026, in which our solution ranked first and achieved a new state-of-the-art result. We propose a multimodal ensemble framework that integrates a self-supervised RGB-based model with supervised multi-stream models from previous solutions. The self-supervised RGB model is pretrained on 120K unlabeled clips via masked video modeling and then fine-tuned on iMiGUE. This simple yet effective RGB baseline achieves 69.224% top-1 accuracy on the iMiGUE test set, demonstrating the benefit of learning transferable representations from unlabeled in-domain videos. By incorporating this model as a complementary branch, the final ensemble reaches 74.419% top-1 accuracy, surpassing the previous state of the art by 1.206 percentage points. Experimental results on iMiGUE, including ablation studies on the ensemble strategy, validate the effectiveness of self-supervised RGB representation learning for micro-gesture recognition.