Natural Human Motion Recovery by Aligning High-Order Temporal Dynamics from Monocular Videos

作者: Dingkun Wei, Zehong Shen, Yan Xia, Georgios Pavlakos, Yujun Shen, Xiaowei Zhou

分类: cs.CV

发布日期: 2026-05-26

备注: 13 pages, 6 figures. Accepted as an Oral presentation and Best Paper Candidate at CVPR 2026. Project page: https://zju3dv.github.io/htd-refine/

💡 一句话要点

HTD-Refine：通过对齐高阶时间动态，提升单目视频人体运动恢复的真实性。

🎯 匹配领域: 支柱四：生成式动作 (Generative Motion) 支柱六：视频提取与匹配 (Video Extraction) 支柱七：动作重定向 (Motion Retargeting) 支柱八：物理动画 (Physics-based Animation)

关键词: 人体运动恢复 单目视频 高阶时间动态 时间Transformer 运动优化

📋 核心要点

现有单目视频人体运动恢复方法难以捕捉高阶时间动态，导致恢复的运动过于平滑，缺乏真实感。
提出HTD-Refine框架，利用PVA-Net预测关节位置、速度和加速度，作为软约束优化运动轨迹。
实验表明，HTD-Refine能有效减少抖动，抑制过度平滑，显著提升运动恢复的准确性和真实性。

📝 摘要（中文）

从单目视频中恢复的人体运动即使在关节位置上数值准确，也常常显得过于平滑或动态不一致。这种局限性源于缺乏可靠的高阶时间线索——速度和加速度，而这些对于重建具有真实动量、时序和高频细节的运动至关重要。我们提出了HTD-Refine，一个后处理框架，利用显式估计的高阶时间动态来增强现有的人体运动恢复（HMR）流程。系统的核心是PVA-Net，一个时间Transformer，直接从单目视频中推断每个关节的2D位置、3D速度和3D加速度。这些预测的动态作为软约束，在一个全局优化过程中细化世界坐标轨迹，显著减少抖动，抑制过度平滑，并恢复物理上合理的运动。在具有挑战性的真实场景基准测试中进行的大量实验表明，HTD-Refine始终如一地改进了最先进的HMR方法，从而产生更准确的全局轨迹和更自然的运动动态。我们的结果突出了高阶时间建模在推进单目人体运动恢复中的关键作用。

🔬 方法详解

问题定义：现有单目视频人体运动恢复方法，即使在关节位置精度较高的情况下，仍然存在运动过于平滑、动态不一致的问题。这是因为现有方法缺乏对高阶时间动态（如速度和加速度）的有效建模，导致无法捕捉到运动的真实动量、时序和高频细节。

核心思路：论文的核心思路是通过显式地估计和利用高阶时间动态来提升人体运动恢复的真实性。具体来说，就是设计一个网络来直接从视频中预测关节的位置、速度和加速度，并将这些预测结果作为约束，用于优化最终的运动轨迹。这样可以有效地减少抖动，抑制过度平滑，并恢复物理上合理的运动。

技术框架：HTD-Refine是一个后处理框架，可以集成到现有的HMR流程中。它主要包含两个阶段：1) 使用PVA-Net从单目视频中预测每个关节的2D位置、3D速度和3D加速度；2) 使用全局优化方法，将PVA-Net的预测结果作为软约束，细化世界坐标下的运动轨迹。

关键创新：论文的关键创新在于提出了PVA-Net，一个时间Transformer网络，可以直接从单目视频中预测高阶时间动态（速度和加速度）。与现有方法相比，PVA-Net能够更有效地捕捉运动的时序信息，从而提升运动恢复的真实性。此外，将预测的高阶时间动态作为软约束，融入到全局优化过程中，也是一个重要的创新点。

关键设计：PVA-Net采用Transformer架构，能够有效地建模时间序列数据。损失函数的设计包括位置损失、速度损失和加速度损失，用于约束PVA-Net的预测结果。全局优化过程使用加权最小二乘法，将PVA-Net的预测结果作为软约束，与原始的HMR结果进行融合。权重的设置需要根据具体的数据集和任务进行调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，HTD-Refine能够显著提升现有HMR方法的性能。在多个具有挑战性的真实场景基准测试中，HTD-Refine consistently 改进了最先进的HMR方法，从而产生更准确的全局轨迹和更自然的运动动态。具体性能提升数据未知，但论文强调了在减少抖动和抑制过度平滑方面的显著效果。

🎯 应用场景

该研究成果可应用于虚拟现实、增强现实、游戏、动画制作、运动分析、人机交互等领域。通过提升单目视频人体运动恢复的真实性和准确性，可以改善用户体验，提高相关应用的效果和实用性。未来，该技术有望应用于更复杂的场景，例如多人交互、复杂环境等。

📄 摘要（原文）

Human motion recovered from monocular videos often appears overly smooth or dynamically inconsistent, even when joint positions are numerically accurate. We observe that this limitation stems from the absence of reliable high-order temporal cues -- velocity and acceleration -- which are essential for reconstructing motion that exhibits realistic momentum, timing, and high-frequency detail. We introduce HTD-Refine, a post-processing framework that augments existing Human Motion Recovery (HMR) pipelines using explicitly estimated high-order temporal dynamics. At the core of our system is PVA-Net, a temporal transformer that infers per-joint 2D positions, 3D velocities, and 3D accelerations directly from a monocular video. These predicted dynamics serve as soft yet informative constraints in a global optimization procedure that refines world-space trajectories, significantly reducing jitter, suppressing over-smoothing, and restoring physically plausible motion. Extensive experiments on challenging in-the-wild benchmarks show that HTD-Refine consistently improves state-of-the-art HMR methods, yielding more accurate global trajectories and substantially more natural motion dynamics. Our results highlight the critical role of high-order temporal modeling in advancing monocular human motion recovery.

Natural Human Motion Recovery by Aligning High-Order Temporal Dynamics from Monocular Videos

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理