Less is More: Decoder-Free Masked Modeling for Efficient Skeleton Representation Learning

作者: Jeonghyeok Do, Yun Chen, Geunhyuk Youk, Munchurl Kim

分类: cs.CV

发布日期: 2026-03-11

备注: Please visit our project page at https://kaist-viclab.github.io/SLiM_site/

💡 一句话要点

SLiM：通过无解码器掩码建模实现高效骨骼表示学习

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 骨骼动作识别 掩码建模 对比学习 无解码器 高效计算

📋 核心要点

对比学习忽略局部细节，掩码自编码器计算负担重，且下游任务计算量大，现有骨骼动作表示学习方法存在局限。
SLiM通过共享编码器统一掩码建模和对比学习，避免使用解码器，迫使编码器直接学习判别性特征。
SLiM在所有下游任务中均达到SOTA，推理计算成本降低7.89倍，展现了卓越的效率和准确性。

📝 摘要（中文）

基于骨骼的动作表示学习已经从对比学习(CL)发展到掩码自编码器(MAE)架构。然而，每种范式都面临固有的局限性：CL经常忽略细粒度的局部细节，而MAE则受到计算量大的解码器的负担。此外，MAE存在严重的计算不对称性——在预训练期间受益于高效的掩码，但在下游任务中需要详尽的全序列处理。为了解决这些瓶颈，我们提出了SLiM（Skeleton Less is More），这是一个新颖的统一框架，通过共享编码器协调掩码建模和对比学习。通过避免重建解码器，SLiM不仅消除了计算冗余，而且迫使编码器直接捕获判别性特征。SLiM是第一个具有代表性学习的无解码器掩码建模框架。至关重要的是，为了防止由高骨骼-时间相关性引起的简单重建，我们引入了语义管掩码，以及旨在确保跨不同时间粒度的解剖学一致性的骨骼感知增强。大量的实验表明，SLiM在所有下游协议中始终如一地实现了最先进的性能。值得注意的是，我们的方法以卓越的效率实现了这种卓越的准确性，与现有的MAE方法相比，推理计算成本降低了7.89倍。

🔬 方法详解

问题定义：现有基于骨骼的动作识别方法，如对比学习和掩码自编码器，存在各自的缺陷。对比学习忽略了细粒度的局部信息，而掩码自编码器则需要大量的计算资源，尤其是在下游任务中进行全序列推理时，计算成本很高。因此，如何设计一个既能捕捉细粒度信息，又能降低计算复杂度的骨骼动作表示学习框架是一个关键问题。

核心思路：SLiM的核心思路是利用无解码器的掩码建模，结合对比学习的优势，通过一个共享的编码器同时进行掩码建模和对比学习。通过去除解码器，可以显著降低计算复杂度，并迫使编码器学习更具判别性的特征表示。同时，为了防止简单的重建，引入了语义管掩码和骨骼感知增强，以提高模型的鲁棒性。

技术框架：SLiM框架主要包含一个共享的编码器，以及掩码建模和对比学习两个分支。首先，对输入的骨骼序列进行掩码，然后将掩码后的序列输入到编码器中。编码器的输出同时用于掩码建模和对比学习。掩码建模的目标是预测被掩码的部分，而对比学习的目标是学习不同骨骼序列之间的相似性。通过联合优化这两个目标，可以学习到更具判别性的骨骼表示。

关键创新：SLiM的关键创新在于提出了无解码器的掩码建模框架。与传统的掩码自编码器相比，SLiM不需要解码器进行重建，从而显著降低了计算复杂度。此外，SLiM还引入了语义管掩码和骨骼感知增强，以提高模型的鲁棒性。这是第一个将无解码器掩码建模应用于骨骼动作表示学习的工作。

关键设计：SLiM使用了语义管掩码，即在时间维度上连续掩码一部分骨骼节点，以防止模型通过简单的时序相关性进行重建。骨骼感知增强包括旋转、缩放、平移等操作，以增加数据的多样性，并提高模型的泛化能力。损失函数由掩码建模损失和对比学习损失组成，通过调整两个损失的权重来平衡两个任务。

🖼️ 关键图片

📊 实验亮点

SLiM在多个骨骼动作识别数据集上取得了SOTA性能。例如，在NTU RGB+D 60数据集上，SLiM的准确率超过了现有最佳方法。更重要的是，SLiM的推理计算成本显著降低，与现有的MAE方法相比，降低了7.89倍，这使得SLiM在实际应用中更具优势。

🎯 应用场景

SLiM在动作识别、人体姿态估计、人机交互等领域具有广泛的应用前景。其高效的计算特性使其能够部署在资源受限的设备上，例如移动设备和嵌入式系统。此外，SLiM还可以用于视频监控、智能安防等领域，实现对异常行为的快速检测和识别。未来，该方法可以进一步扩展到其他模态的数据，例如RGB图像和深度图像，实现多模态的动作表示学习。

📄 摘要（原文）

The landscape of skeleton-based action representation learning has evolved from Contrastive Learning (CL) to Masked Auto-Encoder (MAE) architectures. However, each paradigm faces inherent limitations: CL often overlooks fine-grained local details, while MAE is burdened by computationally heavy decoders. Moreover, MAE suffers from severe computational asymmetry -- benefiting from efficient masking during pre-training but requiring exhaustive full-sequence processing for downstream tasks. To resolve these bottlenecks, we propose SLiM (Skeleton Less is More), a novel unified framework that harmonizes masked modeling with contrastive learning via a shared encoder. By eschewing the reconstruction decoder, SLiM not only eliminates computational redundancy but also compels the encoder to capture discriminative features directly. SLiM is the first framework with decoder-free masked modeling of representative learning. Crucially, to prevent trivial reconstruction arising from high skeletal-temporal correlation, we introduce semantic tube masking, alongside skeletal-aware augmentations designed to ensure anatomical consistency across diverse temporal granularities. Extensive experiments demonstrate that SLiM consistently achieves state-of-the-art performance across all downstream protocols. Notably, our method delivers this superior accuracy with exceptional efficiency, reducing inference computational cost by 7.89x compared to existing MAE methods.

Less is More: Decoder-Free Masked Modeling for Efficient Skeleton Representation Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理