OnlineHMR: Video-based Online World-Grounded Human Mesh Recovery

📄 arXiv: 2603.17355v1 📥 PDF

作者: Yiwen Zhao, Ce Zheng, Yufu Wang, Hsueh-Han Daniel Yang, Liting Wen, Laszlo A. Jeni

分类: cs.CV

发布日期: 2026-03-18

备注: Accepted by CVPR 2026

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出OnlineHMR,解决视频中在线世界坐标系下人体网格重建问题

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱六:视频提取与匹配 (Video Extraction) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 人体网格重建 在线HMR 单目视频 世界坐标系 增量SLAM 因果推理 实时重建

📋 核心要点

  1. 现有HMR方法依赖未来帧或全局优化,无法满足AR/VR等实时性要求高的场景。
  2. OnlineHMR采用双分支架构和因果键值缓存,实现系统级因果性和流式推理。
  3. 该方法结合增量SLAM进行世界坐标对齐和轨迹校正,保证重建结果的物理合理性。

📝 摘要(中文)

本文提出OnlineHMR,一个完全在线的框架,用于从单目视频中重建3D人体网格,并扩展到世界坐标系下的人体轨迹和运动重建。现有方法大多为离线方法,依赖于未来帧或全局优化,限制了其在AR/VR和远程呈现等交互式反馈和感知-动作循环场景中的应用。OnlineHMR满足在线处理的四个基本标准:系统级因果性、保真度、时间一致性和效率。该方法基于双分支架构,通过因果键值缓存设计和精选的滑动窗口学习策略实现流式推理。同时,以人为中心的增量SLAM提供在线世界坐标对齐,并进行物理上合理的轨迹校正。实验结果表明,该方法在标准EMDB基准和高度动态的自定义视频上取得了与现有基于块的方法相当的性能,同时独特地支持在线处理。

🔬 方法详解

问题定义:现有的人体网格重建(HMR)方法,尤其是那些扩展到世界坐标系下的方法,通常是离线的。这意味着它们需要访问整个视频序列才能进行处理,或者依赖于全局优化。这限制了它们在需要实时反馈的场景中的应用,例如增强现实(AR)、虚拟现实(VR)和远程呈现。这些场景需要系统能够以因果的方式处理视频流,即仅使用过去的信息来推断当前状态。

核心思路:OnlineHMR的核心思路是构建一个完全在线的HMR框架,该框架能够以流式的方式处理视频,并重建世界坐标系下的人体网格。为了实现这一目标,该方法采用了双分支架构,并结合了因果键值缓存和增量SLAM。这种设计允许系统在不访问未来帧的情况下,保持时间一致性和物理合理性。

技术框架:OnlineHMR的整体架构包含两个主要分支:一个用于人体姿态估计和网格重建,另一个用于世界坐标系下的轨迹估计。人体姿态估计分支使用一个因果的循环神经网络(RNN)来处理视频帧,并预测当前帧的人体姿态和网格。世界坐标系轨迹估计分支使用一个增量SLAM算法,将每一帧的人体姿态与世界坐标系对齐,并估计相机的运动轨迹。这两个分支通过一个共享的特征表示进行连接,从而实现信息共享和协同优化。

关键创新:OnlineHMR的关键创新在于其完全在线的处理方式和对时间一致性的关注。与现有的离线方法不同,OnlineHMR能够以流式的方式处理视频,并实时重建人体网格和轨迹。此外,该方法还采用了因果键值缓存和增量SLAM等技术,以确保重建结果的时间一致性和物理合理性。

关键设计:OnlineHMR的关键设计包括:1) 因果键值缓存:用于存储过去帧的信息,并将其用于当前帧的姿态估计。2) 人体中心增量SLAM:用于将人体姿态与世界坐标系对齐,并估计相机的运动轨迹。3) 滑动窗口学习策略:用于训练模型,并确保其能够适应不同的视频序列。损失函数包括姿态损失、形状损失、世界坐标损失和时间一致性损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OnlineHMR在EMDB基准测试中取得了与现有基于块的方法相当的性能,同时支持在线处理。在高度动态的自定义视频上,OnlineHMR也表现出了良好的鲁棒性和准确性。实验结果表明,OnlineHMR能够在保持时间一致性和物理合理性的前提下,实时重建人体网格和轨迹。

🎯 应用场景

OnlineHMR在AR/VR、远程呈现、人机交互等领域具有广泛的应用前景。例如,在AR游戏中,可以使用OnlineHMR实时重建玩家的3D模型,并将其融入到虚拟环境中。在远程呈现中,可以使用OnlineHMR实时捕捉远程用户的动作,并将其传输到本地,从而实现更加真实的远程交互。此外,OnlineHMR还可以用于机器人控制、运动分析等领域。

📄 摘要(原文)

Human mesh recovery (HMR) models 3D human body from monocular videos, with recent works extending it to world-coordinate human trajectory and motion reconstruction. However, most existing methods remain offline, relying on future frames or global optimization, which limits their applicability in interactive feedback and perception-action loop scenarios such as AR/VR and telepresence. To address this, we propose OnlineHMR, a fully online framework that jointly satisfies four essential criteria of online processing, including system-level causality, faithfulness, temporal consistency, and efficiency. Built upon a two-branch architecture, OnlineHMR enables streaming inference via a causal key-value cache design and a curated sliding-window learning strategy. Meanwhile, a human-centric incremental SLAM provides online world-grounded alignment under physically plausible trajectory correction. Experimental results show that our method achieves performance comparable to existing chunk-based approaches on the standard EMDB benchmark and highly dynamic custom videos, while uniquely supporting online processing. Page and code are available at https://tsukasane.github.io/Video-OnlineHMR/.