Towards Efficient General Feature Prediction in Masked Skeleton Modeling

📄 arXiv: 2509.03609v1 📥 PDF

作者: Shengkai Sun, Zefan Zhang, Jianfeng Dong, Zhiyong Cheng, Xiaojun Chang, Meng Wang

分类: cs.CV

发布日期: 2025-09-03

备注: Accepted by ICCV 2025


💡 一句话要点

提出通用特征预测框架,加速并提升掩码骨骼建模的动作识别性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 骨骼动作识别 掩码自编码器 自监督学习 特征预测 通用特征预测

📋 核心要点

  1. 现有掩码自编码器方法在骨骼动作识别中计算冗余,且语义表示能力有限,是由于重建目标过于简单。
  2. 提出通用特征预测框架,通过预测高层特征而非原始坐标,实现更高效和更具语义性的骨骼建模。
  3. 实验表明,该方法训练速度提升6.2倍,并在NTU RGB+D等数据集上取得了state-of-the-art的性能。

📝 摘要(中文)

本文提出了一种用于高效掩码骨骼建模的通用特征预测框架(GFP),旨在解决现有方法中重建目标局限于原始关节坐标或其简单变体所导致的计算冗余和语义表示受限问题。该框架通过高层特征预测替代传统的低层重建,涵盖从局部运动模式到全局语义表示。具体而言,引入了一个协同学习框架,其中轻量级的目标生成网络动态地产生跨时空层级的多样化监督信号,避免依赖预先计算的离线特征。该框架还结合了约束优化,以确保特征多样性并防止模型崩溃。在NTU RGB+D 60、NTU RGB+D 120和PKU-MMD数据集上的实验表明,该方法具有计算效率(比标准掩码骨骼建模方法快6.2倍)和卓越的表示质量,在各种下游任务中实现了最先进的性能。

🔬 方法详解

问题定义:现有基于掩码自编码器的骨骼动作识别方法通常直接重建被掩盖的原始关节坐标或其简单变体(如速度、加速度)。这种低层次的重建目标导致模型需要处理大量冗余信息,计算效率低下,并且难以学习到高层次的语义表示,限制了模型的泛化能力。

核心思路:本文的核心思路是将重建目标从低层次的原始关节坐标转换为高层次的特征表示。通过预测这些高层次的特征,模型可以直接学习到更具语义信息的表示,从而提高模型的效率和性能。此外,为了避免依赖预先计算的离线特征,论文提出了一种动态生成目标特征的方法。

技术框架:GFP框架包含一个掩码自编码器和一个目标生成网络。掩码自编码器负责学习骨骼数据的表示,目标生成网络负责动态生成用于训练掩码自编码器的目标特征。具体流程如下:首先,对输入的骨骼序列进行随机掩码;然后,将掩码后的序列输入到掩码自编码器中,得到骨骼数据的表示;接着,将未掩码的原始序列输入到目标生成网络中,生成目标特征;最后,使用掩码自编码器的输出和目标生成网络的输出计算损失,并更新模型参数。

关键创新:该论文的关键创新在于提出了通用特征预测框架,该框架通过预测高层次的特征表示来替代传统的低层次重建目标。此外,论文还提出了一种动态生成目标特征的方法,避免了对预先计算的离线特征的依赖。这种动态生成目标特征的方法可以根据不同的任务和数据集自适应地调整目标特征的分布,从而提高模型的泛化能力。

关键设计:目标生成网络是一个轻量级的神经网络,其输入是未掩码的原始骨骼序列,输出是目标特征。为了确保目标特征的多样性,论文采用了一种约束优化方法,鼓励目标生成网络生成不同的特征。损失函数包括两部分:一部分是掩码自编码器的重建损失,另一部分是目标生成网络的约束损失。重建损失用于衡量掩码自编码器的输出和目标生成网络的输出之间的差异,约束损失用于鼓励目标生成网络生成不同的特征。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在NTU RGB+D 60、NTU RGB+D 120和PKU-MMD等主流骨骼动作识别数据集上取得了state-of-the-art的性能。与传统的掩码骨骼建模方法相比,该方法的训练速度提升了6.2倍,同时显著提高了模型的表示质量和泛化能力。实验结果充分验证了该方法的有效性和优越性。

🎯 应用场景

该研究成果可广泛应用于人机交互、智能监控、康复训练等领域。通过高效准确地识别骨骼动作,可以实现更自然的人机交互方式,提升监控系统的智能化水平,并为康复训练提供个性化的指导方案。未来,该技术有望在虚拟现实、增强现实等新兴领域发挥重要作用。

📄 摘要(原文)

Recent advances in the masked autoencoder (MAE) paradigm have significantly propelled self-supervised skeleton-based action recognition. However, most existing approaches limit reconstruction targets to raw joint coordinates or their simple variants, resulting in computational redundancy and limited semantic representation. To address this, we propose a novel General Feature Prediction framework (GFP) for efficient mask skeleton modeling. Our key innovation is replacing conventional low-level reconstruction with high-level feature prediction that spans from local motion patterns to global semantic representations. Specifically, we introduce a collaborative learning framework where a lightweight target generation network dynamically produces diversified supervision signals across spatial-temporal hierarchies, avoiding reliance on pre-computed offline features. The framework incorporates constrained optimization to ensure feature diversity while preventing model collapse. Experiments on NTU RGB+D 60, NTU RGB+D 120 and PKU-MMD demonstrate the benefits of our approach: Computational efficiency (with 6.2$\times$ faster training than standard masked skeleton modeling methods) and superior representation quality, achieving state-of-the-art performance in various downstream tasks.