PUMPS: Skeleton-Agnostic Point-based Universal Motion Pre-Training for Synthesis in Human Motion Tasks

📄 arXiv: 2507.20170v1 📥 PDF

作者: Clinton Ansun Mo, Kun Hu, Chengjiang Long, Dong Yuan, Wan-Chi Siu, Zhiyong Wang

分类: cs.CV

发布日期: 2025-07-27

备注: Accepted for publication in ICCV 2025


💡 一句话要点

PUMPS:用于人体运动合成的、与骨骼无关的、基于点的通用运动预训练模型

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱八:物理动画 (Physics-based Animation)

关键词: 人体运动合成 时间点云 自编码器 运动预训练 骨骼无关 运动预测 运动迁移

📋 核心要点

  1. 现有运动合成方法难以处理不同骨骼结构的数据,阻碍了数据驱动的运动合成。
  2. PUMPS提出了一种基于时间点云的自编码器架构,通过学习通用的运动表征实现跨骨骼的运动合成。
  3. 实验表明,PUMPS在运动预测、过渡生成和关键帧插值等任务上表现出色,无需原生数据集监督。

📝 摘要(中文)

本文提出PUMPS,一种用于时间点云(TPC)数据的原始自编码器架构,旨在解决数据驱动的运动合成中,由于骨骼比例或结构差异导致运动数据难以跨骨骼迁移的问题。PUMPS将逐帧点云独立地降维为可采样的特征向量,解码器利用潜在高斯噪声向量作为采样标识符,从中提取不同的时间点。引入基于线性分配的点配对来优化TPC重建过程,避免了架构中昂贵的逐点注意力机制。利用这些潜在特征,预训练的运动合成模型能够执行运动预测、过渡生成和关键帧插值。即使没有原生数据集监督,PUMPS在这些预训练任务中也表现出色,与最先进的性能相匹配。在针对运动去噪或估计进行微调时,PUMPS优于许多相关方法,且无需改变其通用架构。

🔬 方法详解

问题定义:论文旨在解决人体运动合成中,由于不同人体骨骼比例和结构差异导致运动数据难以迁移的问题。现有的基于骨骼的方法依赖于特定的骨骼结构,无法很好地泛化到具有不同骨骼结构的数据上。时间点云(TPC)虽然可以提供一种与骨骼无关的表示,但缺乏直接用于运动任务学习的数据合成能力。

核心思路:论文的核心思路是利用自编码器学习时间点云的潜在表示,并利用该潜在表示进行运动合成。通过将运动数据表示为时间点云,可以消除骨骼结构的影响,从而实现跨骨骼的运动迁移。自编码器的设计允许模型学习到时间点云的内在结构和时间一致性。

技术框架:PUMPS的整体架构是一个自编码器结构,包括编码器和解码器。编码器将输入的逐帧点云独立地降维为可采样的特征向量。解码器利用这些特征向量和潜在高斯噪声向量,重构出时间点云。模型包含线性分配的点配对模块,用于优化TPC重建过程。预训练阶段,模型学习运动预测、过渡生成和关键帧插值等任务。

关键创新:论文的关键创新在于提出了一个基于时间点云的通用运动预训练模型,该模型能够学习与骨骼无关的运动表征,并用于各种运动合成任务。此外,论文还提出了基于线性分配的点配对方法,用于优化时间点云的重建过程,避免了使用昂贵的逐点注意力机制。

关键设计:PUMPS的关键设计包括:1) 编码器采用独立处理每一帧点云的方式,提取帧级别的特征;2) 解码器使用潜在高斯噪声向量作为采样标识符,控制生成的时间点;3) 使用线性分配算法进行点配对,优化重建损失;4) 预训练阶段,模型通过自监督学习运动预测、过渡生成和关键帧插值等任务。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PUMPS在运动预测、过渡生成和关键帧插值等预训练任务中,即使没有原生数据集监督,也能达到与最先进方法相当的性能。在运动去噪和运动估计等下游任务上进行微调时,PUMPS也优于许多专门设计的模型,展示了其通用性和有效性。这些结果表明,PUMPS能够学习到高质量的、与骨骼无关的运动表征。

🎯 应用场景

PUMPS的潜在应用领域包括虚拟现实、游戏开发、动画制作和机器人控制等。该模型可以用于生成逼真的人体运动,提高虚拟角色的交互性和真实感。此外,该模型还可以用于运动数据的修复和增强,例如,可以用于填充缺失的运动数据或生成新的运动序列。未来,PUMPS可以进一步扩展到处理更复杂的运动场景,例如,多人交互和物体操作。

📄 摘要(原文)

Motion skeletons drive 3D character animation by transforming bone hierarchies, but differences in proportions or structure make motion data hard to transfer across skeletons, posing challenges for data-driven motion synthesis. Temporal Point Clouds (TPCs) offer an unstructured, cross-compatible motion representation. Though reversible with skeletons, TPCs mainly serve for compatibility, not for direct motion task learning. Doing so would require data synthesis capabilities for the TPC format, which presents unexplored challenges regarding its unique temporal consistency and point identifiability. Therefore, we propose PUMPS, the primordial autoencoder architecture for TPC data. PUMPS independently reduces frame-wise point clouds into sampleable feature vectors, from which a decoder extracts distinct temporal points using latent Gaussian noise vectors as sampling identifiers. We introduce linear assignment-based point pairing to optimise the TPC reconstruction process, and negate the use of expensive point-wise attention mechanisms in the architecture. Using these latent features, we pre-train a motion synthesis model capable of performing motion prediction, transition generation, and keyframe interpolation. For these pre-training tasks, PUMPS performs remarkably well even without native dataset supervision, matching state-of-the-art performance. When fine-tuned for motion denoising or estimation, PUMPS outperforms many respective methods without deviating from its generalist architecture.