Less is More: Decoder-Free Masked Modeling for Efficient Skeleton Representation Learning
作者: Jeonghyeok Do, Yun Chen, Geunhyuk Youk, Munchurl Kim
分类: cs.CV
发布日期: 2026-03-11
备注: Please visit our project page at https://kaist-viclab.github.io/SLiM_site/
💡 一句话要点
SLiM:通过无解码器掩码建模实现高效骨骼表示学习
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 骨骼动作识别 掩码建模 对比学习 无解码器 高效计算
📋 核心要点
- 对比学习忽略局部细节,掩码自编码器计算负担重,且下游任务计算量大,现有骨骼动作表示学习方法存在局限。
- SLiM通过共享编码器统一掩码建模和对比学习,避免使用解码器,迫使编码器直接学习判别性特征。
- SLiM在所有下游任务中均达到SOTA,推理计算成本降低7.89倍,展现了卓越的效率和准确性。
📝 摘要(中文)
基于骨骼的动作表示学习已经从对比学习(CL)发展到掩码自编码器(MAE)架构。然而,每种范式都面临固有的局限性:CL经常忽略细粒度的局部细节,而MAE则受到计算量大的解码器的负担。此外,MAE存在严重的计算不对称性——在预训练期间受益于高效的掩码,但在下游任务中需要详尽的全序列处理。为了解决这些瓶颈,我们提出了SLiM(Skeleton Less is More),这是一个新颖的统一框架,通过共享编码器协调掩码建模和对比学习。通过避免重建解码器,SLiM不仅消除了计算冗余,而且迫使编码器直接捕获判别性特征。SLiM是第一个具有代表性学习的无解码器掩码建模框架。至关重要的是,为了防止由高骨骼-时间相关性引起的简单重建,我们引入了语义管掩码,以及旨在确保跨不同时间粒度的解剖学一致性的骨骼感知增强。大量的实验表明,SLiM在所有下游协议中始终如一地实现了最先进的性能。值得注意的是,我们的方法以卓越的效率实现了这种卓越的准确性,与现有的MAE方法相比,推理计算成本降低了7.89倍。
🔬 方法详解
问题定义:现有基于骨骼的动作识别方法,如对比学习和掩码自编码器,存在各自的缺陷。对比学习忽略了细粒度的局部信息,而掩码自编码器则需要大量的计算资源,尤其是在下游任务中进行全序列推理时,计算成本很高。因此,如何设计一个既能捕捉细粒度信息,又能降低计算复杂度的骨骼动作表示学习框架是一个关键问题。
核心思路:SLiM的核心思路是利用无解码器的掩码建模,结合对比学习的优势,通过一个共享的编码器同时进行掩码建模和对比学习。通过去除解码器,可以显著降低计算复杂度,并迫使编码器学习更具判别性的特征表示。同时,为了防止简单的重建,引入了语义管掩码和骨骼感知增强,以提高模型的鲁棒性。
技术框架:SLiM框架主要包含一个共享的编码器,以及掩码建模和对比学习两个分支。首先,对输入的骨骼序列进行掩码,然后将掩码后的序列输入到编码器中。编码器的输出同时用于掩码建模和对比学习。掩码建模的目标是预测被掩码的部分,而对比学习的目标是学习不同骨骼序列之间的相似性。通过联合优化这两个目标,可以学习到更具判别性的骨骼表示。
关键创新:SLiM的关键创新在于提出了无解码器的掩码建模框架。与传统的掩码自编码器相比,SLiM不需要解码器进行重建,从而显著降低了计算复杂度。此外,SLiM还引入了语义管掩码和骨骼感知增强,以提高模型的鲁棒性。这是第一个将无解码器掩码建模应用于骨骼动作表示学习的工作。
关键设计:SLiM使用了语义管掩码,即在时间维度上连续掩码一部分骨骼节点,以防止模型通过简单的时序相关性进行重建。骨骼感知增强包括旋转、缩放、平移等操作,以增加数据的多样性,并提高模型的泛化能力。损失函数由掩码建模损失和对比学习损失组成,通过调整两个损失的权重来平衡两个任务。
🖼️ 关键图片
📊 实验亮点
SLiM在多个骨骼动作识别数据集上取得了SOTA性能。例如,在NTU RGB+D 60数据集上,SLiM的准确率超过了现有最佳方法。更重要的是,SLiM的推理计算成本显著降低,与现有的MAE方法相比,降低了7.89倍,这使得SLiM在实际应用中更具优势。
🎯 应用场景
SLiM在动作识别、人体姿态估计、人机交互等领域具有广泛的应用前景。其高效的计算特性使其能够部署在资源受限的设备上,例如移动设备和嵌入式系统。此外,SLiM还可以用于视频监控、智能安防等领域,实现对异常行为的快速检测和识别。未来,该方法可以进一步扩展到其他模态的数据,例如RGB图像和深度图像,实现多模态的动作表示学习。
📄 摘要(原文)
The landscape of skeleton-based action representation learning has evolved from Contrastive Learning (CL) to Masked Auto-Encoder (MAE) architectures. However, each paradigm faces inherent limitations: CL often overlooks fine-grained local details, while MAE is burdened by computationally heavy decoders. Moreover, MAE suffers from severe computational asymmetry -- benefiting from efficient masking during pre-training but requiring exhaustive full-sequence processing for downstream tasks. To resolve these bottlenecks, we propose SLiM (Skeleton Less is More), a novel unified framework that harmonizes masked modeling with contrastive learning via a shared encoder. By eschewing the reconstruction decoder, SLiM not only eliminates computational redundancy but also compels the encoder to capture discriminative features directly. SLiM is the first framework with decoder-free masked modeling of representative learning. Crucially, to prevent trivial reconstruction arising from high skeletal-temporal correlation, we introduce semantic tube masking, alongside skeletal-aware augmentations designed to ensure anatomical consistency across diverse temporal granularities. Extensive experiments demonstrate that SLiM consistently achieves state-of-the-art performance across all downstream protocols. Notably, our method delivers this superior accuracy with exceptional efficiency, reducing inference computational cost by 7.89x compared to existing MAE methods.