Unsupervised Skeleton-Based Action Segmentation via Hierarchical Spatiotemporal Vector Quantization

作者: Umer Ahmed, Syed Ahmed Mahmood, Fawad Javed Fateh, M. Shaheer Luqman, M. Zeeshan Zia, Quoc-Huy Tran

分类: cs.CV

发布日期: 2026-04-16

💡 一句话要点

提出一种基于分层时空向量量化的无监督骨骼动作分割方法

🎯 匹配领域: 支柱八：物理动画 (Physics-based Animation) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 骨骼动作识别 时序动作分割 无监督学习 向量量化 分层聚类

📋 核心要点

现有无监督骨骼动作分割方法难以有效利用时空信息，导致分割精度不高且易受片段长度偏差影响。
论文提出分层时空向量量化框架，通过多层聚类同时学习空间子动作和时间动作，有效融合时空信息。
实验结果表明，该方法在多个数据集上取得了新的state-of-the-art性能，并显著降低了片段长度偏差。

📝 摘要（中文）

本文提出了一种新颖的分层时空向量量化框架，用于无监督的基于骨骼的动作时序分割。该框架首先引入了一种分层方法，包括两个连续的向量量化层级。具体而言，较低层级将骨骼与细粒度的子动作相关联，而较高层级进一步将子动作聚合为动作级别的表示。该分层方法优于非分层基线，同时主要通过重建输入骨骼来利用空间线索。接下来，通过利用空间和时间信息来扩展该方法，从而产生分层时空向量量化方案。特别是，分层时空方法执行多层聚类，同时恢复输入骨骼及其对应的时间戳。最后，在包括HuGaDB、LARa和BABEL在内的多个基准数据集上的大量实验表明，该方法建立了新的最先进的性能，并减少了无监督的基于骨骼的动作时序分割中的片段长度偏差。

🔬 方法详解

问题定义：论文旨在解决无监督条件下，基于骨骼数据的动作时序分割问题。现有方法通常难以有效利用骨骼数据的时空信息，导致分割精度不高，并且容易受到片段长度偏差的影响，即倾向于将动作分割成长度相似的片段。

核心思路：论文的核心思路是利用分层向量量化，将骨骼动作分解为细粒度的子动作（空间信息）和粗粒度的动作类别（时间信息），并通过多层聚类学习这些表示。通过同时恢复输入骨骼和对应的时间戳，模型能够更好地理解动作的时空结构。

技术框架：该方法包含两个主要的层级：较低层级进行细粒度的子动作聚类，将骨骼数据映射到子动作表示；较高层级将子动作聚合为动作级别的表示。整个框架通过重建输入骨骼和时间戳进行训练，从而学习到具有区分性的时空特征。具体流程包括：1) 骨骼数据输入；2) 低层级向量量化，学习子动作表示；3) 高层级向量量化，学习动作级别表示；4) 通过重建损失优化模型参数。

关键创新：该方法最重要的创新点在于提出了分层时空向量量化框架，能够同时利用空间和时间信息进行动作分割。与传统的非分层方法相比，该方法能够更好地捕捉动作的层次结构，从而提高分割精度并减少片段长度偏差。

关键设计：在低层级，使用向量量化（VQ）将骨骼数据编码为离散的子动作表示。在高层级，使用另一个VQ层将子动作序列编码为动作类别表示。损失函数包括重建损失（用于恢复输入骨骼和时间戳）和量化损失（用于优化VQ码本）。具体的网络结构和参数设置需要根据不同的数据集进行调整，但整体思路是利用VQ学习离散的时空特征表示。

🖼️ 关键图片

📊 实验亮点

该方法在HuGaDB、LARa和BABEL等多个基准数据集上取得了state-of-the-art的性能。实验结果表明，该方法不仅提高了动作分割的精度，还显著降低了片段长度偏差，使得分割结果更加符合实际情况。具体的性能提升幅度在不同数据集上有所不同，但整体上优于现有的无监督方法。

🎯 应用场景

该研究成果可应用于视频监控、人机交互、康复训练等领域。例如，在视频监控中，可以自动识别异常行为；在人机交互中，可以理解用户的动作意图；在康复训练中，可以评估患者的动作质量。该研究有助于提升这些应用场景的智能化水平。

📄 摘要（原文）

We propose a novel hierarchical spatiotemporal vector quantization framework for unsupervised skeleton-based temporal action segmentation. We first introduce a hierarchical approach, which includes two consecutive levels of vector quantization. Specifically, the lower level associates skeletons with fine-grained subactions, while the higher level further aggregates subactions into action-level representations. Our hierarchical approach outperforms the non-hierarchical baseline, while primarily exploiting spatial cues by reconstructing input skeletons. Next, we extend our approach by leveraging both spatial and temporal information, yielding a hierarchical spatiotemporal vector quantization scheme. In particular, our hierarchical spatiotemporal approach performs multi-level clustering, while simultaneously recovering input skeletons and their corresponding timestamps. Lastly, extensive experiments on multiple benchmarks, including HuGaDB, LARa, and BABEL, demonstrate that our approach establishes a new state-of-the-art performance and reduces segment length bias in unsupervised skeleton-based temporal action segmentation.

Unsupervised Skeleton-Based Action Segmentation via Hierarchical Spatiotemporal Vector Quantization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理