Towards Efficient General Feature Prediction in Masked Skeleton Modeling

📄 arXiv: 2509.03609v1 📥 PDF

作者: Shengkai Sun, Zefan Zhang, Jianfeng Dong, Zhiyong Cheng, Xiaojun Chang, Meng Wang

分类: cs.CV

发布日期: 2025-09-03

备注: Accepted by ICCV 2025


💡 一句话要点

提出通用特征预测框架,加速并提升掩码骨骼建模的动作识别性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 骨骼动作识别 掩码自编码器 自监督学习 特征预测 协同学习

📋 核心要点

  1. 现有掩码自编码器方法在骨骼动作识别中计算冗余,且语义表示能力有限,是由于重建目标过于简单所致。
  2. 提出通用特征预测框架,通过预测高层特征而非原始坐标,实现更高效和更具语义信息的骨骼建模。
  3. 实验表明,该方法训练速度提升6.2倍,并在NTU RGB+D 60/120和PKU-MMD数据集上取得了领先的性能。

📝 摘要(中文)

本文提出了一种用于高效掩码骨骼建模的通用特征预测(GFP)框架,旨在解决现有方法重建目标局限于原始关节坐标或其简单变体导致的计算冗余和语义表示受限问题。该框架通过高层特征预测替代传统的低层重建,涵盖从局部运动模式到全局语义表示。具体而言,引入了一个协同学习框架,其中轻量级目标生成网络动态地产生跨时空层级的多样化监督信号,避免依赖预计算的离线特征。该框架还结合了约束优化,以确保特征多样性并防止模型崩溃。在NTU RGB+D 60、NTU RGB+D 120和PKU-MMD数据集上的实验表明,该方法具有计算效率(训练速度比标准掩码骨骼建模方法快6.2倍)和卓越的表示质量,在各种下游任务中实现了最先进的性能。

🔬 方法详解

问题定义:现有基于掩码自编码器的骨骼动作识别方法通常以原始关节坐标或其简单变体作为重建目标。这种低层次的重建方式导致计算冗余,并且难以捕捉到动作的深层语义信息,限制了模型的表示能力。因此,如何更有效地利用掩码建模范式,提升骨骼动作识别的性能,是本文要解决的核心问题。

核心思路:本文的核心思路是用高层特征预测取代传统的低层重建。具体来说,不是直接重建被掩盖的关节坐标,而是预测从局部运动模式到全局语义表示的高层特征。这种方式能够迫使模型学习更抽象、更具判别性的特征表示,从而提升模型的泛化能力和识别精度。

技术框架:GFP框架包含一个掩码自编码器和一个轻量级目标生成网络。掩码自编码器负责学习骨骼序列的表示,目标生成网络则动态地生成用于训练掩码自编码器的监督信号。整个框架采用协同学习的方式进行训练,其中掩码自编码器和目标生成网络相互促进,共同提升模型的性能。框架还包含一个约束优化模块,用于确保生成特征的多样性,防止模型坍塌。

关键创新:该论文的关键创新在于提出了通用特征预测(GFP)的思想,即用高层特征预测代替传统的低层重建。与现有方法相比,GFP能够更有效地利用掩码建模范式,学习到更具语义信息的骨骼表示。此外,动态目标生成网络和约束优化模块也是重要的创新点,它们共同保证了训练的稳定性和特征的多样性。

关键设计:目标生成网络的设计至关重要,它需要能够生成多样化的、具有区分性的特征。论文中具体的目标生成网络结构未知,但强调了其轻量级和动态生成监督信号的特性。此外,约束优化模块的具体实现方式也未知,但其目的是防止模型坍塌,保证特征的多样性。损失函数的设计也需要考虑如何有效地指导模型学习高层特征表示。

📊 实验亮点

该方法在NTU RGB+D 60、NTU RGB+D 120和PKU-MMD数据集上进行了实验,结果表明,该方法在训练速度上比标准掩码骨骼建模方法快6.2倍,并在各种下游任务中实现了最先进的性能。这些结果充分证明了该方法的有效性和优越性。

🎯 应用场景

该研究成果可广泛应用于人机交互、智能监控、康复医疗等领域。通过高效准确地识别骨骼动作,可以实现更自然的人机交互方式,提升监控系统的智能化水平,并为康复训练提供个性化的指导。未来,该技术有望进一步拓展到虚拟现实、游戏等领域,为用户带来更丰富的体验。

📄 摘要(原文)

Recent advances in the masked autoencoder (MAE) paradigm have significantly propelled self-supervised skeleton-based action recognition. However, most existing approaches limit reconstruction targets to raw joint coordinates or their simple variants, resulting in computational redundancy and limited semantic representation. To address this, we propose a novel General Feature Prediction framework (GFP) for efficient mask skeleton modeling. Our key innovation is replacing conventional low-level reconstruction with high-level feature prediction that spans from local motion patterns to global semantic representations. Specifically, we introduce a collaborative learning framework where a lightweight target generation network dynamically produces diversified supervision signals across spatial-temporal hierarchies, avoiding reliance on pre-computed offline features. The framework incorporates constrained optimization to ensure feature diversity while preventing model collapse. Experiments on NTU RGB+D 60, NTU RGB+D 120 and PKU-MMD demonstrate the benefits of our approach: Computational efficiency (with 6.2$\times$ faster training than standard masked skeleton modeling methods) and superior representation quality, achieving state-of-the-art performance in various downstream tasks.