PhyMotion: Structured 3D Motion Reward for Physics-Grounded Human Video Generation
作者: Yidong Huang, Zun Wang, Han Lin, Dong-Ki Kim, Shayegan Omidshafiei, Jaehong Yoon, Jaemin Cho, Yue Zhang, Mohit Bansal
分类: cs.CV, cs.AI
发布日期: 2026-05-14
备注: First two authors contributed equally, website: https://phy-motion.github.io/
💡 一句话要点
提出PhyMotion:一种基于物理的结构化3D运动奖励,用于提升人体视频生成真实性。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 视频生成 人体运动 强化学习 物理模拟 3D重建
📋 核心要点
- 现有视频生成奖励依赖2D感知信号,缺乏对3D人体运动状态、接触和动力学的建模,导致生成不真实的运动。
- PhyMotion将3D人体轨迹置于物理模拟器中,从运动学合理性、接触平衡一致性、动态可行性三个维度评估运动质量。
- 实验表明,PhyMotion与人类判断的相关性更强,并能显著提升基于强化学习的视频生成后训练效果,提高运动真实性。
📝 摘要(中文)
逼真的人体运动生成是视频生成领域一个核心但尚未解决的挑战。虽然基于强化学习(RL)的后训练在提升通用视频质量方面取得了进展,但将其扩展到人体运动仍然受限于奖励信号,该信号无法可靠地评估运动的真实性。现有的视频奖励主要依赖于2D感知信号,没有明确地对构成关节人体运动的3D身体状态、接触和动力学进行建模,并且经常给具有漂浮身体或物理上不合理的运动的视频分配高分。为了解决这个问题,我们提出了PhyMotion,一种结构化的、细粒度的运动奖励,它将恢复的3D人体轨迹置于物理模拟器中,并沿着物理可行性的多个维度评估运动质量。具体来说,我们从生成的视频中恢复SMPL身体网格,将它们重新定位到MuJoCo物理模拟器中的人形上,并沿着三个轴评估得到的运动:运动学合理性、接触和平衡一致性以及动态可行性。每个组件都提供了一个连续且可解释的信号,该信号与运动质量的特定方面相关联,从而使奖励能够捕获运动的哪些方面在物理上是正确的或被违反的。实验表明,PhyMotion比现有的奖励公式与人类判断的相关性更强。这些优势延续到基于RL的后训练中,其中优化PhyMotion比优化现有奖励带来更大且更一致的改进,从而在自动指标和盲人人工评估下,提高了自回归和双向视频生成器的运动真实性(+68 Elo增益)。消融实验表明,这三个轴提供了互补的监督信号,而奖励仅以适度的训练开销保持了整体视频生成质量。
🔬 方法详解
问题定义:现有视频生成模型在生成人体运动时,缺乏对物理规律的约束,导致生成的视频中出现漂浮、不平衡等不真实的运动。现有的奖励函数主要依赖于2D图像信息,无法准确评估3D运动的真实性,成为提升人体视频生成质量的瓶颈。
核心思路:PhyMotion的核心思路是将生成的3D人体运动置于物理模拟环境中,通过模拟物理交互来评估运动的真实性。通过引入物理约束,可以有效地避免生成违反物理规律的运动,从而提高视频的真实感。
技术框架:PhyMotion主要包含以下几个阶段:1) 从生成的视频中恢复3D人体网格(SMPL模型)。2) 将恢复的3D人体网格导入到MuJoCo物理模拟器中,并将其绑定到一个人形模型上。3) 在物理模拟器中模拟人体运动,并从三个维度评估运动质量:运动学合理性、接触和平衡一致性、动态可行性。4) 将这三个维度的评估结果组合成一个综合的奖励信号,用于指导视频生成模型的训练。
关键创新:PhyMotion的关键创新在于引入了基于物理模拟的3D运动奖励。与传统的基于2D图像的奖励函数相比,PhyMotion能够更准确地评估运动的真实性,并提供更细粒度的反馈信号,从而更好地指导视频生成模型的训练。
关键设计:PhyMotion的关键设计包括:1) 使用SMPL模型来表示3D人体。2) 使用MuJoCo物理模拟器来模拟人体运动。3) 设计了三个维度的运动质量评估指标:运动学合理性(例如,关节角度是否超出范围)、接触和平衡一致性(例如,脚是否与地面接触,身体是否保持平衡)、动态可行性(例如,运动是否符合牛顿定律)。这些指标被设计成连续且可微的,以便于使用梯度下降法进行优化。
🖼️ 关键图片
📊 实验亮点
实验结果表明,PhyMotion与人类判断的相关性显著高于现有奖励函数。在基于强化学习的后训练中,优化PhyMotion比优化现有奖励带来更大的提升,在自动指标和人工评估中均提高了视频生成器的运动真实性(+68 Elo增益)。
🎯 应用场景
PhyMotion可应用于虚拟现实、游戏开发、动画制作等领域,提升虚拟角色的运动真实感和交互体验。该研究有助于开发更逼真、更自然的虚拟人物,并为相关应用提供更可靠的运动生成技术。
📄 摘要(原文)
Generating realistic human motion is a central yet unsolved challenge in video generation. While reinforcement learning (RL)-based post-training has driven recent gains in general video quality, extending it to human motion remains bottlenecked by a reward signal that cannot reliably score motion realism. Existing video rewards primarily rely on 2D perceptual signals, without explicitly modeling the 3D body state, contact, and dynamics underlying articulated human motion, and often assign high scores to videos with floating bodies or physically implausible movements. To address this, we propose PhyMotion, a structured, fine-grained motion reward that grounds recovered 3D human trajectories in a physics simulator and evaluates motion quality along multiple dimensions of physical feasibility. Concretely, we recover SMPL body meshes from generated videos, retarget them onto a humanoid in the MuJoCo physics simulator, and evaluate the resulting motion along three axes: kinematic plausibility, contact and balance consistency, and dynamic feasibility. Each component provides a continuous and interpretable signal tied to a specific aspect of motion quality, allowing the reward to capture which aspects of motion are physically correct or violated. Experiments show that PhyMotion achieves stronger correlation with human judgments than existing reward formulations. These gains carry over to RL-based post-training, where optimizing PhyMotion leads to larger and more consistent improvements than optimizing existing rewards, improving motion realism across both autoregressive and bidirectional video generators under both automatic metrics and blind human evaluation (+68 Elo gain). Ablations show that the three axes provide complementary supervision signals, while the reward preserves overall video generation quality with only modest training overhead.