M3GCLR: Multi-View Mini-Max Infinite Skeleton-Data Game Contrastive Learning For Skeleton-Based Action Recognition

📄 arXiv: 2603.09367v1 📥 PDF

作者: Yanshan Li, Ke Ma, Miaomiao Wei, Linhui Dai

分类: cs.CV, cs.AI

发布日期: 2026-03-10


💡 一句话要点

提出M3GCLR框架,通过多视角对抗对比学习提升骨骼动作识别精度。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 骨骼动作识别 对比学习 对抗学习 多视角学习 自监督学习

📋 核心要点

  1. 现有骨骼动作识别方法在视角差异建模、对抗机制和数据增强扰动控制方面存在不足。
  2. 提出M3GCLR框架,通过构建无限骨骼数据博弈模型,利用多视角信息和对抗学习提升模型性能。
  3. 实验结果表明,M3GCLR在多个数据集上达到或超过了当前最佳水平,验证了框架的有效性。

📝 摘要(中文)

本文提出了一种用于骨骼动作识别的多视角极小极大无限骨骼数据博弈对比学习框架(M3GCLR),旨在解决现有自监督骨骼动作识别方法在视角差异建模不足、缺乏有效对抗机制以及数据增强扰动不可控等问题。首先,建立了无限骨骼数据博弈(ISG)模型和ISG均衡定理,并提供了严格的证明,实现了基于多视角互信息的极小极大优化。然后,通过多视角旋转增强生成普通-极端数据对,并采用时间平均输入作为中性锚点以实现结构对齐,从而显式地表征扰动强度。接着,利用提出的均衡定理,构建了强对抗的极小极大骨骼数据博弈,以鼓励模型挖掘更丰富的动作判别信息。最后,引入双损失均衡优化器来优化博弈均衡,使学习过程最大化动作相关信息,同时最小化编码冗余,并证明了所提出的优化器与ISG模型之间的等价性。大量实验表明,M3GCLR在NTU RGB+D 60(X-Sub,X-View)上实现了三流82.1%,85.8%的准确率,在NTU RGB+D 120(X-Sub,X-Set)上实现了72.3%,75.0%的准确率。在PKU-MMD Part I和II上,分别获得了89.1%,45.2%的三流准确率,所有结果均与最先进的性能相匹配或超过。消融研究证实了每个组件的有效性。

🔬 方法详解

问题定义:现有基于骨骼的动作识别方法在自监督学习方面存在局限性,具体体现在:1) 对不同视角下骨骼数据的差异性建模不足;2) 缺乏有效的对抗机制来提升模型的鲁棒性;3) 数据增强策略中的扰动强度难以控制,可能引入噪声。

核心思路:本文的核心思路是利用博弈论的思想,将骨骼动作识别问题建模为一个多视角极小极大博弈。通过对抗学习,模型能够学习到更具判别性的特征表示,同时利用多视角信息来增强模型的鲁棒性。此外,通过显式地控制数据增强的扰动强度,可以避免引入过多的噪声。

技术框架:M3GCLR框架主要包含以下几个模块:1) 无限骨骼数据博弈(ISG)模型:定义了骨骼数据上的博弈过程,并提出了ISG均衡定理。2) 多视角旋转增强:生成普通-极端数据对,用于对抗学习。3) 时间平均输入:作为中性锚点,用于结构对齐。4) 强对抗极小极大骨骼数据博弈:鼓励模型挖掘更丰富的动作判别信息。5) 双损失均衡优化器:优化博弈均衡,最大化动作相关信息,同时最小化编码冗余。

关键创新:该论文的关键创新在于:1) 提出了无限骨骼数据博弈(ISG)模型,并证明了ISG均衡定理,为对抗学习提供了理论基础。2) 引入了多视角旋转增强和时间平均输入,用于显式地控制数据增强的扰动强度,并实现结构对齐。3) 设计了双损失均衡优化器,用于优化博弈均衡,提升模型的性能。

关键设计:在数据增强方面,采用了多视角旋转,并使用时间平均输入作为锚点。损失函数方面,设计了双损失均衡优化器,包含对比损失和对抗损失。网络结构方面,使用了三流网络结构,分别处理不同视角的骨骼数据。

📊 实验亮点

M3GCLR在NTU RGB+D 60数据集上,X-Sub和X-View分别达到82.1%和85.8%的准确率;在NTU RGB+D 120数据集上,X-Sub和X-Set分别达到72.3%和75.0%的准确率;在PKU-MMD数据集上,Part I和Part II分别达到89.1%和45.2%的准确率。这些结果均与当前最先进的方法相匹配或超过,证明了M3GCLR的有效性。

🎯 应用场景

该研究成果可应用于智能监控、人机交互、康复训练等领域。例如,在智能监控中,可以利用该方法识别异常行为;在人机交互中,可以实现基于骨骼数据的动作控制;在康复训练中,可以辅助评估患者的康复进度。该研究有助于提升相关系统的智能化水平和用户体验。

📄 摘要(原文)

In recent years, contrastive learning has drawn significant attention as an effective approach to reducing reliance on labeled data. However, existing methods for self-supervised skeleton-based action recognition still face three major limitations: insufficient modeling of view discrepancies, lack of effective adversarial mechanisms, and uncontrollable augmentation perturbations. To tackle these issues, we propose the Multi-view Mini-Max infinite skeleton-data Game Contrastive Learning for skeleton-based action Recognition (M3GCLR), a game-theoretic contrastive framework. First, we establish the Infinite Skeleton-data Game (ISG) model and the ISG equilibrium theorem, and further provide a rigorous proof, enabling mini-max optimization based on multi-view mutual information. Then, we generate normal-extreme data pairs through multi-view rotation augmentation and adopt temporally averaged input as a neutral anchor to achieve structural alignment, thereby explicitly characterizing perturbation strength. Next, leveraging the proposed equilibrium theorem, we construct a strongly adversarial mini-max skeleton-data game to encourage the model to mine richer action-discriminative information. Finally, we introduce the dual-loss equilibrium optimizer to optimize the game equilibrium, allowing the learning process to maximize action-relevant information while minimizing encoding redundancy, and we prove the equivalence between the proposed optimizer and the ISG model. Extensive Experiments show that M3GCLR achieves three-stream 82.1%, 85.8% accuracy on NTU RGB+D 60 (X-Sub, X-View) and 72.3%, 75.0% accuracy on NTU RGB+D 120 (X-Sub, X-Set). On PKU-MMD Part I and II, it attains 89.1%, 45.2% in three-stream respectively, all results matching or outperforming state-of-the-art performance. Ablation studies confirm the effectiveness of each component.