DynaPURLS: Dynamic Refinement of Part-aware Representations for Skeleton-based Zero-Shot Action Recognition
作者: Jingmin Zhu, Anqi Zhu, James Bailey, Jun Liu, Hossein Rahmani, Mohammed Bennamoun, Farid Boussaid, Qiuhong Ke
分类: cs.CV, cs.AI
发布日期: 2025-12-12
🔗 代码/项目: GITHUB
💡 一句话要点
DynaPURLS:动态细化部件感知表征,用于基于骨骼的零样本动作识别
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 零样本学习 骨骼动作识别 动态细化 部件感知表征 视觉-语义对齐
📋 核心要点
- 现有零样本骨骼动作识别方法依赖于骨骼特征与静态类别语义的粗粒度对齐,导致领域迁移能力不足。
- DynaPURLS通过动态细化部件感知表征,建立鲁棒的多尺度视觉-语义对应关系,增强模型在未见类别上的泛化能力。
- 在多个大规模数据集上的实验结果表明,DynaPURLS显著优于现有技术,并在零样本骨骼动作识别任务上取得了新的state-of-the-art。
📝 摘要(中文)
本文提出DynaPURLS框架,旨在解决零样本骨骼动作识别(ZS-SAR)中,骨骼特征与静态类别语义对齐的局限性。这种粗粒度的对齐方式难以弥合已见类别和未见类别之间的领域差异,阻碍了细粒度视觉知识的有效迁移。DynaPURLS通过建立鲁棒的多尺度视觉-语义对应关系,并在推理时动态细化这些对应关系来增强泛化能力。该框架利用大型语言模型生成包含全局运动和局部身体部位动态的分层文本描述。同时,自适应划分模块通过语义分组骨骼关节来生成细粒度的视觉表示。为了增强这种细粒度对齐,DynaPURLS引入动态细化模块,在推理过程中通过轻量级的可学习投影将文本特征适应于输入的视觉流。置信度感知的、类别平衡的记忆库稳定了细化过程,减轻了来自噪声伪标签的误差传播。在NTU RGB+D 60/120和PKU-MMD等大规模基准数据集上的实验表明,DynaPURLS显著优于现有方法,创造了新的state-of-the-art记录。
🔬 方法详解
问题定义:零样本骨骼动作识别旨在识别训练集中未出现的动作类别。现有方法主要依赖于将骨骼特征与静态的、类别级别的语义信息对齐,这种粗粒度的对齐方式无法有效捕捉动作的细微变化,导致模型在未见类别上的泛化能力较差。领域偏移是该问题的主要痛点。
核心思路:DynaPURLS的核心思路是通过动态细化部件感知的视觉表征,建立更鲁棒、更细粒度的视觉-语义对应关系。具体来说,利用大型语言模型生成分层文本描述,捕捉全局运动和局部身体部位的动态信息;同时,自适应地划分骨骼关节,生成细粒度的视觉表示。通过动态细化模块,将文本特征与视觉流进行对齐,从而增强模型对未见类别的泛化能力。
技术框架:DynaPURLS框架主要包含三个模块:1) 分层文本描述生成模块:利用大型语言模型生成包含全局运动和局部身体部位动态的分层文本描述。2) 自适应划分模块:通过语义分组骨骼关节,生成细粒度的视觉表示。3) 动态细化模块:在推理过程中,通过轻量级的可学习投影将文本特征适应于输入的视觉流,并使用置信度感知的、类别平衡的记忆库稳定细化过程。
关键创新:DynaPURLS的关键创新在于动态细化模块,它能够在推理过程中根据输入的视觉信息动态调整文本特征,从而更好地适应未见类别。与现有方法相比,DynaPURLS不再依赖于静态的类别语义信息,而是通过动态调整视觉-语义对应关系来增强模型的泛化能力。
关键设计:动态细化模块使用一个轻量级的可学习投影层,将文本特征映射到与视觉特征相同的空间。为了稳定细化过程,引入了一个置信度感知的、类别平衡的记忆库,用于存储已见类别的特征信息。损失函数的设计旨在最小化视觉特征与动态调整后的文本特征之间的距离,同时鼓励模型生成置信度较高的伪标签。
🖼️ 关键图片
📊 实验亮点
DynaPURLS在NTU RGB+D 60、NTU RGB+D 120和PKU-MMD等三个大规模基准数据集上取得了显著的性能提升,创造了新的state-of-the-art记录。具体性能数据在论文中详细展示,表明该方法在零样本骨骼动作识别任务上的有效性。
🎯 应用场景
DynaPURLS在人机交互、智能监控、康复训练等领域具有广泛的应用前景。例如,可以用于识别监控视频中出现的异常行为,辅助医生进行康复评估,或者为用户提供个性化的健身指导。该研究有助于提升人工智能系统在复杂环境下的感知和理解能力。
📄 摘要(原文)
Zero-shot skeleton-based action recognition (ZS-SAR) is fundamentally constrained by prevailing approaches that rely on aligning skeleton features with static, class-level semantics. This coarse-grained alignment fails to bridge the domain shift between seen and unseen classes, thereby impeding the effective transfer of fine-grained visual knowledge. To address these limitations, we introduce \textbf{DynaPURLS}, a unified framework that establishes robust, multi-scale visual-semantic correspondences and dynamically refines them at inference time to enhance generalization. Our framework leverages a large language model to generate hierarchical textual descriptions that encompass both global movements and local body-part dynamics. Concurrently, an adaptive partitioning module produces fine-grained visual representations by semantically grouping skeleton joints. To fortify this fine-grained alignment against the train-test domain shift, DynaPURLS incorporates a dynamic refinement module. During inference, this module adapts textual features to the incoming visual stream via a lightweight learnable projection. This refinement process is stabilized by a confidence-aware, class-balanced memory bank, which mitigates error propagation from noisy pseudo-labels. Extensive experiments on three large-scale benchmark datasets, including NTU RGB+D 60/120 and PKU-MMD, demonstrate that DynaPURLS significantly outperforms prior art, setting new state-of-the-art records. The source code is made publicly available at https://github.com/Alchemist0754/DynaPURLS