Action Motifs: Self-Supervised Hierarchical Representation of Human Body Movements

📄 arXiv: 2604.28173v1 📥 PDF

作者: Genki Kinoshita, Shu Nakamura, Ryo Kawahara, Shohei Nobuhara, Yasutomo Kawanishi, Ko Nishino

分类: cs.CV

发布日期: 2026-04-30

备注: to be published in CVPR 2026 (Highlight)


💡 一句话要点

提出A4Mer自监督学习框架,用于人体动作分层表示,提升行为建模性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 人体行为建模 自监督学习 分层表示 动作基元 Transformer 运动预测 动作识别

📋 核心要点

  1. 现有方法难以有效捕捉人体运动的组合性,限制了人体行为建模的性能。
  2. 提出A4Mer框架,通过自监督学习动作原子和动作基元的分层表示,捕捉人体运动的组合性和语义信息。
  3. 实验表明,A4Mer提取的动作基元显著提升了动作识别、运动预测和运动插值等任务的性能。

📝 摘要(中文)

本文提出了一种人体动作分层表示方法,旨在有效建模人体行为的组合性。该方法由动作原子(Action Atoms)和动作基元(Action Motifs)构成,前者捕捉原子性的关节运动,后者由动作原子按时间组合而成,编码不同人体动作中相似的身体运动。为此,作者设计了一个嵌套的潜在Transformer模型A4Mer,以完全自监督的方式从人体姿态数据中学习这种分层表示。A4Mer将3D姿态序列分割成变长片段,并将每个片段表示为一个潜在token(动作原子)。通过自底向上的表示学习,由这些动作原子组成的、捕捉有意义的时间跨度的、可复用的身体运动语义片段的动作基元自然涌现。A4Mer通过统一的掩码token预测预训练任务实现这一点。此外,作者还引入了动作基元数据集(AMD),这是一个大规模的多视角人体行为视频数据集,带有完整的SMPL标注。实验结果表明,A4Mer能够有效地提取有意义的动作基元,从而显著提升人体行为建模任务的性能,包括动作识别、运动预测和运动插值。

🔬 方法详解

问题定义:现有的人体行为建模方法通常难以有效捕捉人体运动的组合性,即人体动作是由一系列更小的、可复用的运动单元组合而成的。这导致模型难以泛化到新的动作或场景,并且缺乏对人体行为深层语义的理解。现有方法通常依赖于人工标注的数据,成本高昂,且难以覆盖所有可能的动作。

核心思路:本文的核心思路是通过自监督学习的方式,从大量无标注的人体姿态数据中学习人体动作的分层表示。这种分层表示由动作原子(Action Atoms)和动作基元(Action Motifs)构成,前者捕捉原子性的关节运动,后者由动作原子按时间组合而成,编码不同人体动作中相似的身体运动。通过这种方式,模型可以自动发现人体运动的内在结构和语义信息,从而提高行为建模的性能。

技术框架:A4Mer是一个嵌套的潜在Transformer模型,其整体流程如下:1) 将3D姿态序列分割成变长片段;2) 使用编码器将每个片段表示为一个潜在token(动作原子);3) 使用Transformer学习动作原子之间的时序关系,从而形成动作基元;4) 通过掩码token预测的预训练任务,学习动作原子和动作基元的表示。该框架包含两个主要的模块:动作原子编码器和动作基元Transformer。

关键创新:本文最重要的技术创新点在于提出了动作原子和动作基元的分层表示,以及使用嵌套的潜在Transformer模型A4Mer来学习这种表示。与现有方法相比,A4Mer不需要人工标注的数据,可以自动发现人体运动的内在结构和语义信息。此外,A4Mer还引入了一种新的多视角人体行为视频数据集(AMD),该数据集带有完整的SMPL标注,可以用于训练和评估人体行为建模模型。

关键设计:A4Mer的关键设计包括:1) 使用变长片段分割3D姿态序列,以适应不同动作的长度变化;2) 使用潜在空间来表示动作原子,以降低计算复杂度;3) 使用Transformer来学习动作原子之间的时序关系,以捕捉动作基元;4) 使用掩码token预测的预训练任务,以学习动作原子和动作基元的表示。损失函数主要由掩码token预测损失构成,用于约束模型学习有意义的动作表示。数据集AMD使用了足部相机,解决了人体遮挡问题。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,A4Mer能够有效地提取有意义的动作基元,从而显著提升人体行为建模任务的性能。在动作识别任务中,A4Mer在多个数据集上取得了state-of-the-art的结果。在运动预测和运动插值任务中,A4Mer也取得了显著的提升,表明其能够更好地理解和预测人体运动。

🎯 应用场景

该研究成果可应用于多种领域,例如:智能监控、人机交互、虚拟现实、运动分析和康复训练等。通过理解和预测人体行为,可以实现更智能的监控系统,更自然的人机交互,更逼真的虚拟现实体验,更科学的运动分析和更有效的康复训练。该研究为开发更智能、更人性化的应用奠定了基础。

📄 摘要(原文)

Effective human behavior modeling requires a representation of the human body movement that capitalizes on its compositionality. We propose a hierarchical representation consisting of Action Atoms that capture the atomic joint movements and Action Motifs that are formed by their temporal compositions and encode similar body movements found across different overall human actions. We derive A4Mer, a nested latent Transformer to learn this hierarchical representation from human pose data in a fully self-supervised manner. A4Mer splits a 3D pose sequence into variable-length segments and represents each segment as a single latent token (Action Atoms). Through bottom-up representation learning, temporal patterns composed of these Action Atoms, which capture meaningful temporal spans of reusable, semantic segments of body movements, naturally emerge (Action Motifs). A4Mer achieves this with a unified pretext task of masked token prediction in their respective latent spaces. We also introduce Action Motif Dataset (AMD), a large-scale dataset of multi-view human behavior videos with full SMPL annotations. We introduce a novel use of cameras by mounting them on the feet to achieve their frame-wise annotations despite frequent and heavy body occlusions. Experimental results demonstrate the effectiveness of A4Mer for extracting meaningful Action Motifs, which significantly benefit human behavior modeling tasks including action recognition, motion prediction, and motion interpolation.