Skeleton-Snippet Contrastive Learning with Multiscale Feature Fusion for Action Localization

📄 arXiv: 2512.16504v2 📥 PDF

作者: Qiushuo Cheng, Jingjing Liu, Catherine Morgan, Alan Whone, Majid Mirmehdi

分类: cs.CV

发布日期: 2025-12-18 (更新: 2025-12-22)


💡 一句话要点

提出基于骨骼片段对比学习和多尺度特征融合的动作定位方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 骨骼动作定位 自监督学习 对比学习 多尺度特征融合 时间敏感特征

📋 核心要点

  1. 基于骨骼的动作定位需要捕捉帧间细微差异,现有方法难以有效学习时间敏感特征。
  2. 提出片段判别预训练任务,通过对比学习区分不同视频片段,增强时间敏感特征。
  3. 融合骨骼动作识别模型中间层特征,提升特征分辨率,改善帧级别定位性能。

📝 摘要(中文)

本文针对基于骨骼的动作定位任务,提出了一种自监督预训练范式。不同于视频级别的动作识别,动作定位需要对时间敏感的特征,以捕捉相邻帧之间细微的标签变化。为此,我们设计了一个片段判别预训练任务,将骨骼序列密集地投影到非重叠的片段中,并通过对比学习来区分不同视频中的片段特征。此外,我们利用U型模块融合中间层特征,增强特征分辨率,从而提升帧级别的定位性能。实验表明,我们的方法在BABEL数据集上持续改进了现有的基于骨骼的对比学习方法,并在NTU RGB+D和BABEL上预训练后,在PKUMMD数据集上实现了最先进的迁移学习性能。

🔬 方法详解

问题定义:论文旨在解决基于骨骼的动作定位问题。现有方法在学习用于动作识别的3D动作表示方面取得了成功,但直接应用于动作定位时,由于缺乏对时间边界的敏感性,难以有效区分相邻帧之间的细微差异,导致定位精度不高。

核心思路:论文的核心思路是通过自监督预训练,学习对时间变化敏感的骨骼特征表示。具体而言,将骨骼序列分割成多个片段,并通过对比学习,使模型能够区分不同视频中的片段,从而增强模型对动作边界的感知能力。

技术框架:该方法主要包含两个关键模块:片段判别预训练和多尺度特征融合。首先,利用片段判别预训练任务,将骨骼序列分割成非重叠的片段,并通过对比学习训练模型。然后,在骨骼动作识别模型的骨干网络中,引入U型模块,融合不同尺度的中间层特征,以提高特征分辨率,从而改善帧级别的定位性能。

关键创新:该方法的主要创新在于提出了片段判别预训练任务,该任务专门设计用于学习对时间变化敏感的骨骼特征表示。与传统的视频级别对比学习方法不同,该方法关注于区分相邻帧之间的细微差异,从而更适合于动作定位任务。

关键设计:在片段判别预训练中,采用了InfoNCE损失函数进行对比学习,旨在最大化同一视频中同一片段的不同增强视图之间的一致性,并最小化不同视频片段之间的一致性。U型模块的具体结构未知,但其目的是融合骨干网络中的不同尺度的特征,以提高特征分辨率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在BABEL数据集上,相较于现有基于骨骼的对比学习方法,在动作定位任务上取得了持续改进。此外,通过在NTU RGB+D和BABEL数据集上进行预训练,并在PKUMMD数据集上进行迁移学习,该方法实现了最先进的性能。

🎯 应用场景

该研究成果可应用于智能监控、人机交互、康复训练等领域。例如,在智能监控中,可以利用该方法精确定位异常行为的发生时间;在康复训练中,可以辅助评估患者的动作完成情况,并提供个性化的训练方案。该方法有望推动基于骨骼的动作理解技术在实际场景中的应用。

📄 摘要(原文)

The self-supervised pretraining paradigm has achieved great success in learning 3D action representations for skeleton-based action recognition using contrastive learning. However, learning effective representations for skeleton-based temporal action localization remains challenging and underexplored. Unlike video-level {action} recognition, detecting action boundaries requires temporally sensitive features that capture subtle differences between adjacent frames where labels change. To this end, we formulate a snippet discrimination pretext task for self-supervised pretraining, which densely projects skeleton sequences into non-overlapping segments and promotes features that distinguish them across videos via contrastive learning. Additionally, we build on strong backbones of skeleton-based action recognition models by fusing intermediate features with a U-shaped module to enhance feature resolution for frame-level localization. Our approach consistently improves existing skeleton-based contrastive learning methods for action localization on BABEL across diverse subsets and evaluation protocols. We also achieve state-of-the-art transfer learning performance on PKUMMD with pretraining on NTU RGB+D and BABEL.