Beyond Binary Contrast: Modeling Continuous Skeleton Action Spaces with Transitional Anchors

📄 arXiv: 2604.17914v1 📥 PDF

作者: Yingjie Feng, Yi Wang, Jiaze Wang, Anfeng Liu, Zhuotao Tian

分类: cs.CV

发布日期: 2026-04-20

🔗 代码/项目: GITHUB


💡 一句话要点

TranCLR:利用过渡锚点建模连续骨骼动作空间,提升动作识别精度

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 骨骼动作识别 自监督学习 对比学习 连续动作建模 流形校准

📋 核心要点

  1. 现有基于骨骼的动作识别方法依赖二元对比学习,忽略了动作的连续性,导致特征表示分散和类别边界僵化。
  2. TranCLR通过构建动作过渡锚点(ATAC)显式建模过渡状态的几何结构,增强模型对运动连续性的感知。
  3. TranCLR引入多层次几何流形校准(MGMC)机制,自适应校准动作流形,在多个数据集上取得了显著的性能提升。

📝 摘要(中文)

本文提出了一种基于过渡锚点的对比学习框架TranCLR,旨在解决基于骨骼的动作识别中,现有自监督对比学习方法依赖二元对比目标而忽略了人体运动内在连续性的问题,从而导致特征簇分散和类别边界僵化。TranCLR通过Action Transitional Anchor Construction (ATAC) 显式地建模过渡状态的几何结构,增强模型对运动连续性的感知。此外,引入了Multi-Level Geometric Manifold Calibration (MGMC) 机制,自适应地校准跨多个连续性级别的动作流形,从而产生更平滑和更具区分性的表示空间。在NTU RGB+D、NTU RGB+D 120和PKU-MMD数据集上的大量实验表明,TranCLR实现了卓越的准确性和校准性能,有效地学习了连续且具有不确定性意识的骨骼表示。

🔬 方法详解

问题定义:现有基于骨骼的动作识别方法,特别是自监督对比学习方法,通常采用二元对比目标,即区分正样本和负样本。这种方法忽略了人体动作的内在连续性,导致学习到的特征表示呈现出离散的簇状结构,类别边界不够平滑,影响了识别精度和泛化能力。

核心思路:TranCLR的核心思路是显式地建模动作序列中过渡状态的几何结构,将动作视为一个连续的流形,而不是离散的类别。通过引入“过渡锚点”,将相邻的动作状态联系起来,从而使模型能够更好地理解动作的连续性和动态变化。

技术框架:TranCLR框架主要包含两个核心模块:Action Transitional Anchor Construction (ATAC) 和 Multi-Level Geometric Manifold Calibration (MGMC)。首先,ATAC模块负责构建动作过渡锚点,捕捉动作序列中相邻帧之间的关系。然后,MGMC模块利用这些锚点,在多个连续性级别上自适应地校准动作流形,使得学习到的特征表示更加平滑和具有区分性。整体流程是:输入骨骼动作序列,经过特征提取后,利用ATAC构建过渡锚点,再通过MGMC进行流形校准,最后得到用于动作识别的特征表示。

关键创新:TranCLR的关键创新在于:1) 提出了Action Transitional Anchor Construction (ATAC) 模块,显式地建模了动作序列中过渡状态的几何结构,从而捕捉了动作的连续性;2) 引入了Multi-Level Geometric Manifold Calibration (MGMC) 机制,自适应地校准动作流形,使得学习到的特征表示更加平滑和具有区分性。与现有方法相比,TranCLR不再局限于二元对比,而是关注动作的连续变化,从而能够学习到更鲁棒和更具表达能力的特征表示。

关键设计:ATAC模块的关键设计在于如何选择和构建过渡锚点。论文中可能采用了某种策略(具体细节未知)来选择具有代表性的过渡状态作为锚点。MGMC模块的关键设计在于如何定义和计算流形校准的损失函数。损失函数可能包含两部分:一部分用于保证特征表示的平滑性,另一部分用于保证特征表示的区分性。具体的参数设置、损失函数和网络结构等技术细节需要在论文原文中查找。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TranCLR在NTU RGB+D、NTU RGB+D 120和PKU-MMD等多个公开数据集上进行了评估,实验结果表明,TranCLR在动作识别精度和校准性能方面均优于现有的自监督对比学习方法。具体的性能提升幅度需要在论文原文中查找,但摘要中明确指出TranCLR实现了“卓越的准确性和校准性能”。

🎯 应用场景

TranCLR在基于骨骼的动作识别领域具有广泛的应用前景,例如视频监控、人机交互、康复训练、运动分析等。通过更准确地识别和理解人体动作,可以提升这些应用场景的智能化水平。未来,该研究可以扩展到其他类型的序列数据,例如语音、文本等,从而解决更广泛的序列建模问题。

📄 摘要(原文)

Self-supervised contrastive learning has emerged as a powerful paradigm for skeleton-based action recognition by enforcing consistency in the embedding space. However, existing methods rely on binary contrastive objectives that overlook the intrinsic continuity of human motion, resulting in fragmented feature clusters and rigid class boundaries. To address these limitations, we propose TranCLR, a Transitional anchor-based Contrastive Learning framework that captures the continuous geometry of the action space. Specifically, the proposed Action Transitional Anchor Construction (ATAC) explicitly models the geometric structure of transitional states to enhance the model's perception of motion continuity. Building upon these anchors, a Multi-Level Geometric Manifold Calibration (MGMC) mechanism is introduced to adaptively calibrate the action manifold across multiple levels of continuity, yielding a smoother and more discriminative representation space. Extensive experiments on the NTU RGB+D, NTU RGB+D 120 and PKU-MMD datasets demonstrate that TranCLR achieves superior accuracy and calibration performance, effectively learning continuous and uncertainty-aware skeleton representations. The code is available at https://github.com/Philchieh/TranCLR.