SkeletonContext: Skeleton-side Context Prompt Learning for Zero-Shot Skeleton-based Action Recognition
作者: Ning Wang, Tieyue Wu, Naeha Sharif, Farid Boussaid, Guangming Zhu, Lin Mei, Mohammed Bennamoun, zhang liang
分类: cs.CV
发布日期: 2026-03-31
备注: Accepted by CVPR 2026
💡 一句话要点
SkeletonContext:利用骨骼上下文提示学习实现零样本骨骼动作识别
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 零样本学习 骨骼动作识别 上下文提示学习 跨模态学习 大型语言模型
📋 核心要点
- 现有零样本骨骼动作识别方法缺乏上下文信息,导致骨骼特征与语义表示存在差距,难以区分视觉相似的动作。
- SkeletonContext通过跨模态上下文提示模块,利用预训练语言模型和大型语言模型,为骨骼运动表示注入语言驱动的上下文语义。
- 实验表明,SkeletonContext在多个基准数据集上取得了SOTA性能,验证了其在零样本骨骼动作识别中的有效性。
📝 摘要(中文)
本文提出了一种名为SkeletonContext的基于提示学习的框架,用于解决零样本骨骼动作识别问题。该方法旨在通过语言驱动的上下文语义来丰富骨骼运动表示,从而弥补骨骼特征与语义表示之间由于缺乏上下文线索而造成的差距。具体而言,引入了跨模态上下文提示模块,该模块利用预训练语言模型在大型语言模型的指导下重建被掩盖的上下文提示。此外,还结合了关键部分解耦模块,以解耦与运动相关的关节特征,确保即使在没有明确对象交互的情况下也能实现鲁棒的动作理解。在多个基准数据集上的大量实验表明,SkeletonContext在传统和广义零样本设置下均实现了最先进的性能,验证了其在推理上下文和区分细粒度、视觉上相似的动作方面的有效性。
🔬 方法详解
问题定义:零样本骨骼动作识别旨在识别未见过的动作类别,其关键挑战在于如何将从已见类别中学习到的知识迁移到未见类别。现有方法通常将骨骼特征与文本嵌入对齐到共享的潜在空间中,但忽略了动作发生的上下文信息(例如,涉及的物体),导致模型难以区分视觉上相似的动作。
核心思路:本文的核心思路是通过引入上下文信息来增强骨骼运动表示,从而弥补骨骼特征与语义表示之间的差距。具体来说,利用预训练语言模型和大型语言模型,为骨骼特征注入语言驱动的上下文语义,使得模型能够更好地理解动作的含义。
技术框架:SkeletonContext框架主要包含两个模块:跨模态上下文提示模块(Cross-Modal Context Prompt Module)和关键部分解耦模块(Key-Part Decoupling Module)。跨模态上下文提示模块负责将语言驱动的上下文语义注入到骨骼特征中;关键部分解耦模块负责解耦与运动相关的关节特征,从而提高模型的鲁棒性。整体流程是先通过骨骼编码器提取骨骼特征,然后通过跨模态上下文提示模块增强特征,最后通过分类器进行动作识别。
关键创新:本文最重要的技术创新点在于提出了跨模态上下文提示模块,该模块能够有效地将语言驱动的上下文语义注入到骨骼特征中。与现有方法相比,该模块能够更好地利用上下文信息,从而提高模型的识别精度。此外,关键部分解耦模块也能够提高模型的鲁棒性。
关键设计:跨模态上下文提示模块的关键设计在于利用预训练语言模型重建被掩盖的上下文提示。具体来说,首先利用大型语言模型生成上下文描述,然后随机掩盖一部分上下文描述,最后利用预训练语言模型重建被掩盖的部分。损失函数包括上下文重建损失和动作分类损失。关键部分解耦模块的关键设计在于利用注意力机制选择与运动相关的关节特征,并将其解耦。
🖼️ 关键图片
📊 实验亮点
SkeletonContext在多个基准数据集上取得了state-of-the-art的性能。例如,在NTU RGB+D数据集上,SkeletonContext在传统零样本设置下取得了显著的性能提升。在广义零样本设置下,SkeletonContext也优于现有的方法,验证了其在推理上下文和区分细粒度动作方面的有效性。
🎯 应用场景
该研究成果可应用于智能监控、人机交互、康复训练等领域。例如,在智能监控中,可以利用该技术识别异常行为;在人机交互中,可以利用该技术识别用户的手势;在康复训练中,可以利用该技术评估患者的康复情况。该研究的未来影响在于能够提高机器对人类行为的理解能力,从而实现更加智能化的应用。
📄 摘要(原文)
Zero-shot skeleton-based action recognition aims to recognize unseen actions by transferring knowledge from seen categories through semantic descriptions. Most existing methods typically align skeleton features with textual embeddings within a shared latent space. However, the absence of contextual cues, such as objects involved in the action, introduces an inherent gap between skeleton and semantic representations, making it difficult to distinguish visually similar actions. To address this, we propose SkeletonContext, a prompt-based framework that enriches skeletal motion representations with language-driven contextual semantics. Specifically, we introduce a Cross-Modal Context Prompt Module, which leverages a pretrained language model to reconstruct masked contextual prompts under guidance derived from LLMs. This design effectively transfers linguistic context to the skeleton encoder for instance-level semantic grounding and improved cross-modal alignment. In addition, a Key-Part Decoupling Module is incorporated to decouple motion-relevant joint features, ensuring robust action understanding even in the absence of explicit object interactions. Extensive experiments on multiple benchmarks demonstrate that SkeletonContext achieves state-of-the-art performance under both conventional and generalized zero-shot settings, validating its effectiveness in reasoning about context and distinguishing fine-grained, visually similar actions.