VIFSS: View-Invariant and Figure Skating-Specific Pose Representation Learning for Temporal Action Segmentation

📄 arXiv: 2508.10281v1 📥 PDF

作者: Ryota Tanaka, Tomohiro Suzuki, Keisuke Fujii

分类: cs.CV

发布日期: 2025-08-14


💡 一句话要点

提出VIFSS框架,解决花样滑冰跳跃动作时序分割中视角不变性和数据稀缺问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 花样滑冰 动作识别 时序动作分割 姿态估计 对比学习

📋 核心要点

  1. 花样滑冰跳跃动作识别需要专业知识,现有TAS方法缺乏足够标注数据,且忽略了跳跃动作的三维结构和程序性。
  2. 提出VIFSS框架,通过对比学习预训练学习视角不变的姿态表示,并结合细粒度标注学习跳跃动作的程序性结构。
  3. 实验表明,该方法在花样滑冰跳跃动作时序分割任务上表现出色,尤其在数据有限的情况下,预训练效果显著。

📝 摘要(中文)

本文提出了一种新的花样滑冰跳跃动作时序分割(TAS)框架,旨在解决数据不足和现有方法忽略跳跃动作三维结构及程序性结构的问题。该框架包含视角不变、花样滑冰特定的姿态表示学习方法(VIFSS),它结合了对比学习预训练和动作分类微调。为了进行视角不变的对比预训练,构建了首个公开的花样滑冰跳跃3D姿态数据集FS-Jump3D。此外,引入了细粒度的标注方案,标记了“进入(准备)”和“落地”阶段,使TAS模型能够学习跳跃的程序性结构。实验结果表明,该框架在元素级TAS上实现了超过92%的F1@50,尤其是在微调数据有限的情况下,视角不变的对比预训练非常有效。

🔬 方法详解

问题定义:现有的花样滑冰跳跃动作时序分割方法面临两个主要问题:一是标注数据不足,二是忽略了跳跃动作内在的三维特性和程序性结构(例如,准备阶段和落地阶段)。这导致模型难以准确识别跳跃类型和旋转等级,尤其是在视角变化的情况下。

核心思路:论文的核心思路是显式地将跳跃动作的三维特性和语义程序结构融入到TAS框架中。通过学习视角不变的姿态表示,模型可以更好地泛化到不同的视角。同时,通过细粒度的标注,模型可以学习跳跃动作的程序性结构,从而更准确地进行时序分割。

技术框架:整体框架包含两个主要阶段:1) 视角不变的姿态表示学习(VIFSS),包括对比学习预训练和动作分类微调;2) 基于学习到的姿态表示进行时序动作分割。对比学习预训练使用FS-Jump3D数据集,旨在学习视角不变的姿态特征。动作分类微调则利用花样滑冰跳跃动作的标注数据,进一步优化姿态表示。

关键创新:最重要的技术创新点在于VIFSS,即视角不变、花样滑冰特定的姿态表示学习方法。它结合了对比学习和动作分类,并利用专门构建的3D姿态数据集FS-Jump3D进行预训练。与现有方法相比,VIFSS能够更好地学习跳跃动作的三维结构,并具有更强的视角不变性。

关键设计:FS-Jump3D数据集包含花样滑冰跳跃动作的3D姿态数据,用于对比学习预训练。细粒度的标注方案将跳跃动作分为“进入(准备)”和“落地”阶段。对比学习的损失函数旨在拉近同一跳跃动作不同视角下的姿态表示,并推远不同跳跃动作的姿态表示。动作分类微调使用交叉熵损失函数。具体的网络结构未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的VIFSS框架在元素级TAS上实现了超过92%的F1@50,显著优于现有方法。尤其是在微调数据有限的情况下,视角不变的对比预训练效果显著,证明了该方法在实际应用中的可行性。FS-Jump3D数据集的发布也为该领域的研究提供了宝贵资源。

🎯 应用场景

该研究成果可应用于花样滑冰运动分析、运动员训练辅助、赛事裁判辅助评分等领域。通过自动识别跳跃动作类型和旋转等级,可以更客观地评估运动员的表现,并为运动员提供个性化的训练建议。此外,该方法也可推广到其他体育运动或人体动作分析领域。

📄 摘要(原文)

Understanding human actions from videos plays a critical role across various domains, including sports analytics. In figure skating, accurately recognizing the type and timing of jumps a skater performs is essential for objective performance evaluation. However, this task typically requires expert-level knowledge due to the fine-grained and complex nature of jump procedures. While recent approaches have attempted to automate this task using Temporal Action Segmentation (TAS), there are two major limitations to TAS for figure skating: the annotated data is insufficient, and existing methods do not account for the inherent three-dimensional aspects and procedural structure of jump actions. In this work, we propose a new TAS framework for figure skating jumps that explicitly incorporates both the three-dimensional nature and the semantic procedure of jump movements. First, we propose a novel View-Invariant, Figure Skating-Specific pose representation learning approach (VIFSS) that combines contrastive learning as pre-training and action classification as fine-tuning. For view-invariant contrastive pre-training, we construct FS-Jump3D, the first publicly available 3D pose dataset specialized for figure skating jumps. Second, we introduce a fine-grained annotation scheme that marks the entry (preparation)'' andlanding'' phases, enabling TAS models to learn the procedural structure of jumps. Extensive experiments demonstrate the effectiveness of our framework. Our method achieves over 92% F1@50 on element-level TAS, which requires recognizing both jump types and rotation levels. Furthermore, we show that view-invariant contrastive pre-training is particularly effective when fine-tuning data is limited, highlighting the practicality of our approach in real-world scenarios.