PRISM: Streaming Human Motion Generation with Per-Joint Latent Decomposition
作者: Zeyu Ling, Qing Shuai, Teng Zhang, Shiyang Li, Bo Han, Changqing Zou
分类: cs.CV
发布日期: 2026-03-09
💡 一句话要点
PRISM:提出基于关节分解的流式人体运动生成方法,显著提升生成质量。
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 人体运动生成 文本到运动 姿势条件生成 扩散模型 关节分解 自回归生成 流式合成
📋 核心要点
- 现有方法将人体运动压缩为单一向量,导致信息纠缠,下游生成器难以有效建模。
- PRISM提出关节分解的潜在空间,每个关节对应一个token,并结合无噪声条件注入,实现统一的运动生成。
- 实验表明,PRISM在多个数据集上取得了SOTA结果,并在用户研究中表现出色,验证了其有效性。
📝 摘要(中文)
本文提出PRISM,旨在解决文本到运动生成中存在的两个挑战。一是现有运动自编码器将每帧压缩为单个潜在向量,导致轨迹和关节旋转信息纠缠,下游生成器难以建模。二是文本到运动、姿势条件生成和长时序序列合成通常需要单独的模型或特定机制,自回归方法存在严重的误差累积。PRISM通过以下方式解决这些问题:(1) 关节分解的运动潜在空间:每个身体关节占据自己的token,形成结构化的2D网格(时间*关节),并通过具有前向运动学监督的因果VAE进行压缩。这种潜在空间的简单改变显著提高了生成质量。(2) 无噪声条件注入:每个潜在token携带自己的时间步嵌入,允许将条件帧作为干净的token(时间步0)注入,同时对剩余token进行去噪。这统一了文本到运动和姿势条件生成,并直接实现了用于流式合成的自回归分段链接。自强制训练进一步抑制了长序列中的漂移。PRISM在HumanML3D、MotionHub、BABEL和一项包含50个场景的用户研究中取得了最先进的结果。
🔬 方法详解
问题定义:现有文本到运动生成方法通常将人体运动的每一帧压缩成一个单一的潜在向量,这种方式将轨迹信息和每个关节的旋转信息混合在一起,导致下游的生成器难以准确地建模和生成高质量的运动。此外,现有的方法通常需要针对不同的任务(如文本到运动、姿势条件生成、长时序运动生成)训练不同的模型,缺乏通用性。自回归方法在长时序生成中容易出现误差累积的问题。
核心思路:PRISM的核心思路是将人体运动的潜在空间进行关节分解,即每个身体关节对应一个独立的token。这样可以解耦不同关节的信息,使得生成器更容易学习和控制每个关节的运动。此外,PRISM还引入了无噪声条件注入机制,将条件帧作为干净的token注入到潜在空间中,从而实现统一的运动生成框架。
技术框架:PRISM的整体框架包括一个关节分解的运动自编码器和一个基于扩散模型的生成器。运动自编码器负责将人体运动数据压缩到关节分解的潜在空间中。该自编码器采用因果VAE结构,并使用前向运动学进行监督,以保证潜在空间的合理性。生成器则基于扩散模型,负责从潜在空间中生成人体运动。生成器可以根据文本描述或姿势条件进行引导,生成相应的运动序列。为了实现长时序运动生成,PRISM采用自回归分段链接的方式,将生成的运动片段拼接起来。
关键创新:PRISM的关键创新在于两个方面:一是关节分解的运动潜在空间,二是无噪声条件注入机制。关节分解的潜在空间可以解耦不同关节的信息,提高生成质量。无噪声条件注入机制可以统一文本到运动和姿势条件生成,并实现自回归分段链接。
关键设计:PRISM的关节分解潜在空间采用2D网格结构(时间*关节),每个token对应一个关节在特定时间步的运动信息。自编码器采用因果VAE结构,以保证潜在空间的时序一致性。生成器采用扩散模型,并使用时间步嵌入来控制生成过程。自回归分段链接采用自强制训练,以抑制长序列中的漂移。损失函数包括重构损失、KL散度和前向运动学损失。
🖼️ 关键图片
📊 实验亮点
PRISM在HumanML3D、MotionHub和BABEL数据集上取得了SOTA结果。例如,在HumanML3D数据集上,PRISM的FID指标优于现有方法。用户研究表明,PRISM生成的运动在自然度和多样性方面均优于现有方法。自强制训练有效地抑制了长序列中的漂移,提高了长时序运动生成的质量。
🎯 应用场景
PRISM具有广泛的应用前景,包括虚拟现实、游戏、动画制作、机器人控制等领域。它可以用于生成逼真的人体运动,例如根据文本描述生成舞蹈动作,或根据用户姿势生成运动动画。此外,PRISM还可以用于训练机器人模仿人类动作,提高机器人的运动能力。
📄 摘要(原文)
Text-to-motion generation has advanced rapidly, yet two challenges persist. First, existing motion autoencoders compress each frame into a single monolithic latent vector, entangling trajectory and per-joint rotations in an unstructured representation that downstream generators struggle to model faithfully. Second, text-to-motion, pose-conditioned generation, and long-horizon sequential synthesis typically require separate models or task-specific mechanisms, with autoregressive approaches suffering from severe error accumulation over extended rollouts. We present PRISM, addressing each challenge with a dedicated contribution. (1) A joint-factorized motion latent space: each body joint occupies its own token, forming a structured 2D grid (time joints) compressed by a causal VAE with forward-kinematics supervision. This simple change to the latent space -- without modifying the generator -- substantially improves generation quality, revealing that latent space design has been an underestimated bottleneck. (2) Noise-free condition injection: each latent token carries its own timestep embedding, allowing conditioning frames to be injected as clean tokens (timestep0) while the remaining tokens are denoised. This unifies text-to-motion and pose-conditioned generation in a single model, and directly enables autoregressive segment chaining for streaming synthesis. Self-forcing training further suppresses drift in long rollouts. With these two components, we train a single motion generation foundation model that seamlessly handles text-to-motion, pose-conditioned generation, autoregressive sequential generation, and narrative motion composition, achieving state-of-the-art on HumanML3D, MotionHub, BABEL, and a 50-scenario user study.