Unsupervised Skeleton-Based Action Segmentation via Hierarchical Spatiotemporal Vector Quantization
作者: Umer Ahmed, Syed Ahmed Mahmood, Fawad Javed Fateh, M. Shaheer Luqman, M. Zeeshan Zia, Quoc-Huy Tran
分类: cs.CV
发布日期: 2026-04-16
💡 一句话要点
提出一种基于分层时空向量量化的无监督骨骼动作分割方法
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 骨骼动作识别 时序动作分割 无监督学习 向量量化 分层聚类
📋 核心要点
- 现有无监督骨骼动作分割方法难以有效利用时空信息,导致分割精度不高且易受片段长度偏差影响。
- 论文提出分层时空向量量化框架,通过多层聚类同时学习空间子动作和时间动作,有效融合时空信息。
- 实验结果表明,该方法在多个数据集上取得了新的state-of-the-art性能,并显著降低了片段长度偏差。
📝 摘要(中文)
本文提出了一种新颖的分层时空向量量化框架,用于无监督的基于骨骼的动作时序分割。该框架首先引入了一种分层方法,包括两个连续的向量量化层级。具体而言,较低层级将骨骼与细粒度的子动作相关联,而较高层级进一步将子动作聚合为动作级别的表示。该分层方法优于非分层基线,同时主要通过重建输入骨骼来利用空间线索。接下来,通过利用空间和时间信息来扩展该方法,从而产生分层时空向量量化方案。特别是,分层时空方法执行多层聚类,同时恢复输入骨骼及其对应的时间戳。最后,在包括HuGaDB、LARa和BABEL在内的多个基准数据集上的大量实验表明,该方法建立了新的最先进的性能,并减少了无监督的基于骨骼的动作时序分割中的片段长度偏差。
🔬 方法详解
问题定义:论文旨在解决无监督条件下,基于骨骼数据的动作时序分割问题。现有方法通常难以有效利用骨骼数据的时空信息,导致分割精度不高,并且容易受到片段长度偏差的影响,即倾向于将动作分割成长度相似的片段。
核心思路:论文的核心思路是利用分层向量量化,将骨骼动作分解为细粒度的子动作(空间信息)和粗粒度的动作类别(时间信息),并通过多层聚类学习这些表示。通过同时恢复输入骨骼和对应的时间戳,模型能够更好地理解动作的时空结构。
技术框架:该方法包含两个主要的层级:较低层级进行细粒度的子动作聚类,将骨骼数据映射到子动作表示;较高层级将子动作聚合为动作级别的表示。整个框架通过重建输入骨骼和时间戳进行训练,从而学习到具有区分性的时空特征。具体流程包括:1) 骨骼数据输入;2) 低层级向量量化,学习子动作表示;3) 高层级向量量化,学习动作级别表示;4) 通过重建损失优化模型参数。
关键创新:该方法最重要的创新点在于提出了分层时空向量量化框架,能够同时利用空间和时间信息进行动作分割。与传统的非分层方法相比,该方法能够更好地捕捉动作的层次结构,从而提高分割精度并减少片段长度偏差。
关键设计:在低层级,使用向量量化(VQ)将骨骼数据编码为离散的子动作表示。在高层级,使用另一个VQ层将子动作序列编码为动作类别表示。损失函数包括重建损失(用于恢复输入骨骼和时间戳)和量化损失(用于优化VQ码本)。具体的网络结构和参数设置需要根据不同的数据集进行调整,但整体思路是利用VQ学习离散的时空特征表示。
🖼️ 关键图片
📊 实验亮点
该方法在HuGaDB、LARa和BABEL等多个基准数据集上取得了state-of-the-art的性能。实验结果表明,该方法不仅提高了动作分割的精度,还显著降低了片段长度偏差,使得分割结果更加符合实际情况。具体的性能提升幅度在不同数据集上有所不同,但整体上优于现有的无监督方法。
🎯 应用场景
该研究成果可应用于视频监控、人机交互、康复训练等领域。例如,在视频监控中,可以自动识别异常行为;在人机交互中,可以理解用户的动作意图;在康复训练中,可以评估患者的动作质量。该研究有助于提升这些应用场景的智能化水平。
📄 摘要(原文)
We propose a novel hierarchical spatiotemporal vector quantization framework for unsupervised skeleton-based temporal action segmentation. We first introduce a hierarchical approach, which includes two consecutive levels of vector quantization. Specifically, the lower level associates skeletons with fine-grained subactions, while the higher level further aggregates subactions into action-level representations. Our hierarchical approach outperforms the non-hierarchical baseline, while primarily exploiting spatial cues by reconstructing input skeletons. Next, we extend our approach by leveraging both spatial and temporal information, yielding a hierarchical spatiotemporal vector quantization scheme. In particular, our hierarchical spatiotemporal approach performs multi-level clustering, while simultaneously recovering input skeletons and their corresponding timestamps. Lastly, extensive experiments on multiple benchmarks, including HuGaDB, LARa, and BABEL, demonstrate that our approach establishes a new state-of-the-art performance and reduces segment length bias in unsupervised skeleton-based temporal action segmentation.