Semantic Belief-State World Model for 3D Human Motion Prediction
作者: Sarim Chaudhry
分类: cs.CV
发布日期: 2026-01-07
💡 一句话要点
提出语义信念状态世界模型(SBWM)用于解决3D人体运动预测中的长时漂移问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction)
关键词: 人体运动预测 世界模型 潜在变量模型 SMPL-X 长时预测
📋 核心要点
- 现有方法将人体运动预测视为序列回归问题,易产生累积漂移、均值姿势坍塌和不确定性校准不良等问题。
- SBWM通过在人体流形上进行潜在动态模拟,显式地对齐SMPL-X参数化,从而学习运动动力学和意图。
- SBWM在长时预测中表现出连贯性,并在计算成本更低的情况下,实现了具有竞争力的预测精度。
📝 摘要(中文)
本文提出了一种语义信念状态世界模型(SBWM),将人体运动预测重新定义为人体流形上的潜在动态模拟。SBWM不直接预测姿势,而是维护一个循环概率信念状态,其演化独立于姿势重建学习,并与SMPL-X解剖参数化显式对齐。这种对齐施加了一个结构化的信息瓶颈,防止潜在状态编码静态几何或传感器噪声,迫使其捕获运动动力学、意图和控制相关结构。SBWM借鉴了为基于模型的强化学习开发的信念状态世界模型,将随机潜在转换和以rollout为中心的训练应用于人体运动领域。与针对重建保真度优化的基于RSSM、Transformer和扩散的方法不同,SBWM优先考虑稳定的前向模拟。实验表明,SBWM实现了连贯的长时rollout,并在显著降低计算成本的同时,获得了具有竞争力的精度。这些结果表明,将人体视为世界模型状态空间的一部分,而不是其输出,从根本上改变了运动的模拟和预测方式。
🔬 方法详解
问题定义:人体运动预测旨在根据历史姿态序列预测未来的人体运动。现有方法通常采用序列回归的方式,直接预测未来的关节坐标。然而,这种方法存在几个痛点:一是没有将观测重建与动力学建模分离;二是缺乏对运动潜在原因的显式表示;三是在长时预测中容易出现累积漂移、均值姿势坍塌以及不确定性校准不良等问题。
核心思路:SBWM的核心思路是将人体运动预测问题转化为在人体流形上的潜在动态模拟。它维护一个循环概率信念状态,该状态的演化独立于姿势重建,并且与SMPL-X解剖参数化显式对齐。通过这种方式,SBWM能够学习到运动的潜在动力学、意图以及控制相关的结构,从而实现更准确和稳定的长时预测。
技术框架:SBWM的整体架构包含以下几个主要模块:1) 编码器:将观测到的历史姿态编码为潜在状态的表示;2) 潜在状态转移模型:学习潜在状态之间的转移规则,模拟运动的动态过程;3) 解码器:将潜在状态解码为预测的未来姿态;4) SMPL-X参数化对齐模块:将潜在状态与SMPL-X参数化进行对齐,从而实现对人体运动的精确控制。整个流程可以概括为:观测姿态 -> 编码 -> 潜在状态演化 -> 解码 -> 预测姿态。
关键创新:SBWM最重要的技术创新在于它将人体视为世界模型状态空间的一部分,而不是其输出。通过将潜在状态与SMPL-X参数化显式对齐,SBWM能够学习到运动的潜在动力学和控制结构,从而避免了传统方法中存在的累积漂移等问题。此外,SBWM还借鉴了基于模型的强化学习中的信念状态世界模型,并将其应用于人体运动预测领域。
关键设计:SBWM的关键设计包括:1) 使用循环神经网络(RNN)来维护和更新信念状态;2) 采用随机潜在转换来模拟运动的不确定性;3) 使用rollout-centric训练方法来优化模型的长时预测性能;4) 设计合适的损失函数,包括重建损失、KL散度损失等,以保证模型的训练效果。具体的网络结构和参数设置需要根据具体的应用场景进行调整。
📊 实验亮点
SBWM在Human3.6M数据集上进行了实验,结果表明,在长时预测中,SBWM能够生成连贯的运动序列,并且在计算成本显著降低的情况下,实现了与现有方法具有竞争力的预测精度。具体来说,SBWM在1000ms的预测范围内,关节位置误差(MPJPE)优于某些基线方法,同时计算效率更高。
🎯 应用场景
该研究成果可应用于虚拟现实、人机交互、游戏开发、运动分析、康复训练等领域。通过准确预测人体运动,可以提升虚拟角色的真实感,改善人机交互的自然性,为运动分析提供更可靠的数据,并为康复训练提供个性化的指导。未来,该方法有望应用于更复杂的场景,例如多人交互、复杂环境下的运动预测等。
📄 摘要(原文)
Human motion prediction has traditionally been framed as a sequence regression problem where models extrapolate future joint coordinates from observed pose histories. While effective over short horizons this approach does not separate observation reconstruction with dynamics modeling and offers no explicit representation of the latent causes governing motion. As a result, existing methods exhibit compounding drift, mean-pose collapse, and poorly calibrated uncertainty when rolled forward beyond the training regime. Here we propose a Semantic Belief-State World Model (SBWM) that reframes human motion prediction as latent dynamical simulation on the human body manifold. Rather than predicting poses directly, SBWM maintains a recurrent probabilistic belief state whose evolution is learned independently of pose reconstruction and explicitly aligned with the SMPL-X anatomical parameterization. This alignment imposes a structural information bottleneck that prevents the latent state from encoding static geometry or sensor noise, forcing it to capture motion dynamics, intent, and control-relevant structure. Inspired by belief-state world models developed for model-based reinforcement learning, SBWM adapts stochastic latent transitions and rollout-centric training to the domain of human motion. In contrast to RSSM-based, transformer, and diffusion approaches optimized for reconstruction fidelity, SBWM prioritizes stable forward simulation. We demonstrate coherent long-horizon rollouts, and competitive accuracy at substantially lower computational cost. These results suggest that treating the human body as part of the world models state space rather than its output fundamentally changes how motion is simulated, and predicted.