Skeleton-Snippet Contrastive Learning with Multiscale Feature Fusion for Action Localization

作者: Qiushuo Cheng, Jingjing Liu, Catherine Morgan, Alan Whone, Majid Mirmehdi

分类: cs.CV

发布日期: 2025-12-18 (更新: 2025-12-22)

💡 一句话要点

提出基于骨骼片段对比学习和多尺度特征融合的动作定位方法

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 骨骼动作定位 自监督学习 对比学习 多尺度特征融合 时间敏感特征

📋 核心要点

基于骨骼的动作定位需要捕捉帧间细微差异，现有方法难以有效学习时间敏感特征。
提出片段判别预训练任务，通过对比学习区分不同视频片段，增强时间敏感特征。
融合骨骼动作识别模型中间层特征，提升特征分辨率，改善帧级别定位性能。

📝 摘要（中文）

本文针对基于骨骼的动作定位任务，提出了一种自监督预训练范式。不同于视频级别的动作识别，动作定位需要对时间敏感的特征，以捕捉相邻帧之间细微的标签变化。为此，我们设计了一个片段判别预训练任务，将骨骼序列密集地投影到非重叠的片段中，并通过对比学习来区分不同视频中的片段特征。此外，我们利用U型模块融合中间层特征，增强特征分辨率，从而提升帧级别的定位性能。实验表明，我们的方法在BABEL数据集上持续改进了现有的基于骨骼的对比学习方法，并在NTU RGB+D和BABEL上预训练后，在PKUMMD数据集上实现了最先进的迁移学习性能。

🔬 方法详解

问题定义：论文旨在解决基于骨骼的动作定位问题。现有方法在学习用于动作识别的3D动作表示方面取得了成功，但直接应用于动作定位时，由于缺乏对时间边界的敏感性，难以有效区分相邻帧之间的细微差异，导致定位精度不高。

核心思路：论文的核心思路是通过自监督预训练，学习对时间变化敏感的骨骼特征表示。具体而言，将骨骼序列分割成多个片段，并通过对比学习，使模型能够区分不同视频中的片段，从而增强模型对动作边界的感知能力。

技术框架：该方法主要包含两个关键模块：片段判别预训练和多尺度特征融合。首先，利用片段判别预训练任务，将骨骼序列分割成非重叠的片段，并通过对比学习训练模型。然后，在骨骼动作识别模型的骨干网络中，引入U型模块，融合不同尺度的中间层特征，以提高特征分辨率，从而改善帧级别的定位性能。

关键创新：该方法的主要创新在于提出了片段判别预训练任务，该任务专门设计用于学习对时间变化敏感的骨骼特征表示。与传统的视频级别对比学习方法不同，该方法关注于区分相邻帧之间的细微差异，从而更适合于动作定位任务。

关键设计：在片段判别预训练中，采用了InfoNCE损失函数进行对比学习，旨在最大化同一视频中同一片段的不同增强视图之间的一致性，并最小化不同视频片段之间的一致性。U型模块的具体结构未知，但其目的是融合骨干网络中的不同尺度的特征，以提高特征分辨率。

🖼️ 关键图片

📊 实验亮点

该方法在BABEL数据集上，相较于现有基于骨骼的对比学习方法，在动作定位任务上取得了持续改进。此外，通过在NTU RGB+D和BABEL数据集上进行预训练，并在PKUMMD数据集上进行迁移学习，该方法实现了最先进的性能。

🎯 应用场景

该研究成果可应用于智能监控、人机交互、康复训练等领域。例如，在智能监控中，可以利用该方法精确定位异常行为的发生时间；在康复训练中，可以辅助评估患者的动作完成情况，并提供个性化的训练方案。该方法有望推动基于骨骼的动作理解技术在实际场景中的应用。

📄 摘要（原文）

The self-supervised pretraining paradigm has achieved great success in learning 3D action representations for skeleton-based action recognition using contrastive learning. However, learning effective representations for skeleton-based temporal action localization remains challenging and underexplored. Unlike video-level {action} recognition, detecting action boundaries requires temporally sensitive features that capture subtle differences between adjacent frames where labels change. To this end, we formulate a snippet discrimination pretext task for self-supervised pretraining, which densely projects skeleton sequences into non-overlapping segments and promotes features that distinguish them across videos via contrastive learning. Additionally, we build on strong backbones of skeleton-based action recognition models by fusing intermediate features with a U-shaped module to enhance feature resolution for frame-level localization. Our approach consistently improves existing skeleton-based contrastive learning methods for action localization on BABEL across diverse subsets and evaluation protocols. We also achieve state-of-the-art transfer learning performance on PKUMMD with pretraining on NTU RGB+D and BABEL.

Skeleton-Snippet Contrastive Learning with Multiscale Feature Fusion for Action Localization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理