Human3R: Everyone Everywhere All at Once
作者: Yue Chen, Xingyu Chen, Yuxuan Xue, Anpei Chen, Yuliang Xiu, Gerard Pons-Moll
分类: cs.CV
发布日期: 2025-10-07
备注: Page: https://fanegg.github.io/Human3R Code: https://github.com/fanegg/Human3R
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
Human3R:提出统一的单目视频4D人体场景重建框架,实现多人、场景和相机轨迹的实时重建。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱四:生成式动作 (Generative Motion) 支柱六:视频提取与匹配 (Video Extraction) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 4D人体场景重建 单目视频 多人姿态估计 场景重建 相机姿态估计
📋 核心要点
- 现有方法依赖多阶段流程和外部依赖,计算成本高,难以实时重建复杂场景。
- Human3R采用统一的前馈框架,通过视觉提示调整,在CUT3R基础上实现多人、场景和相机轨迹的联合重建。
- 实验表明,Human3R在多个任务上达到SOTA或具有竞争力的性能,且速度达到15FPS,内存占用仅8GB。
📝 摘要(中文)
本文提出Human3R,一个统一的前馈框架,用于从随意拍摄的单目视频中在线重建世界坐标系下的4D人体场景。与以往依赖多阶段流程、人与场景之间迭代接触感知优化以及严重依赖(例如,人体检测、深度估计和SLAM预处理)的方法不同,Human3R在一个前向过程中联合恢复全局多人SMPL-X人体姿态(“所有人”)、密集3D场景(“所有地点”)和相机轨迹(“一次性”)。我们的方法建立在4D在线重建模型CUT3R的基础上,并使用参数高效的视觉提示调整,以努力保留CUT3R丰富的时空先验,同时能够直接读取多个SMPL-X人体。Human3R是一个统一的模型,消除了沉重的依赖和迭代优化。在相对小规模的合成数据集BEDLAM上仅用一个GPU训练一天后,它以卓越的效率实现了卓越的性能:它以单次方式重建多个人体,以及3D场景,在一个阶段中,以实时速度(15 FPS)和低内存占用(8 GB)运行。大量的实验表明,Human3R在包括全局人体运动估计、局部人体网格恢复、视频深度估计和相机姿态估计等任务中,以单一统一模型提供最先进或具有竞争力的性能。我们希望Human3R将作为一个简单而强大的基线,可以很容易地扩展到下游应用。
🔬 方法详解
问题定义:现有方法在4D人体场景重建中存在依赖性强、流程复杂、计算量大的问题,难以实现实时和高效的重建。特别是,它们通常依赖于人体检测、深度估计和SLAM等预处理步骤,并且需要迭代优化人与场景之间的交互。
核心思路:Human3R的核心思路是构建一个统一的前馈网络,能够一次性地从单目视频中恢复多人SMPL-X模型、密集3D场景和相机轨迹。通过参数高效的视觉提示调整,保留了CUT3R的时空先验知识,并实现了多个人体的直接读取。
技术框架:Human3R建立在CUT3R模型之上,采用视觉提示调整(Visual Prompt Tuning)的方式,将SMPL-X人体参数的预测能力集成到CUT3R中。整个框架是一个端到端的网络,输入是单目视频帧,输出是多人SMPL-X模型、场景几何和相机姿态。该框架避免了传统方法中多阶段的pipeline和迭代优化。
关键创新:Human3R的关键创新在于其统一的框架和视觉提示调整方法。它消除了对人体检测、深度估计和SLAM等外部依赖的需求,实现了多人、场景和相机轨迹的联合重建。视觉提示调整使得模型能够在保留CUT3R时空先验的同时,学习SMPL-X人体参数的预测。
关键设计:Human3R的关键设计包括:1) 使用CUT3R作为基础模型,继承其强大的时空建模能力;2) 采用视觉提示调整,将SMPL-X人体参数预测能力集成到CUT3R中;3) 设计合适的损失函数,用于训练模型,包括SMPL-X参数损失、场景几何损失和相机姿态损失。具体参数设置和网络结构细节在论文中有详细描述(未知)。
🖼️ 关键图片
📊 实验亮点
Human3R在BEDLAM数据集上训练后,在多个任务上取得了state-of-the-art或具有竞争力的性能。例如,在全局人体运动估计、局部人体网格恢复、视频深度估计和相机姿态估计等任务中,Human3R均表现出色。此外,Human3R具有很高的效率,能够以15 FPS的速度实时重建多人场景,且内存占用仅为8 GB。
🎯 应用场景
Human3R具有广泛的应用前景,包括虚拟现实、增强现实、游戏、机器人导航、人机交互、运动分析和智能监控等领域。它可以用于创建逼真的虚拟环境,实现自然的人机交互,以及进行运动捕捉和分析。该研究的未来影响在于推动4D人体场景重建技术的发展,并为相关应用提供更高效和准确的解决方案。
📄 摘要(原文)
We present Human3R, a unified, feed-forward framework for online 4D human-scene reconstruction, in the world frame, from casually captured monocular videos. Unlike previous approaches that rely on multi-stage pipelines, iterative contact-aware refinement between humans and scenes, and heavy dependencies, e.g., human detection, depth estimation, and SLAM pre-processing, Human3R jointly recovers global multi-person SMPL-X bodies ("everyone"), dense 3D scene ("everywhere"), and camera trajectories in a single forward pass ("all-at-once"). Our method builds upon the 4D online reconstruction model CUT3R, and uses parameter-efficient visual prompt tuning, to strive to preserve CUT3R's rich spatiotemporal priors, while enabling direct readout of multiple SMPL-X bodies. Human3R is a unified model that eliminates heavy dependencies and iterative refinement. After being trained on the relatively small-scale synthetic dataset BEDLAM for just one day on one GPU, it achieves superior performance with remarkable efficiency: it reconstructs multiple humans in a one-shot manner, along with 3D scenes, in one stage, at real-time speed (15 FPS) with a low memory footprint (8 GB). Extensive experiments demonstrate that Human3R delivers state-of-the-art or competitive performance across tasks, including global human motion estimation, local human mesh recovery, video depth estimation, and camera pose estimation, with a single unified model. We hope that Human3R will serve as a simple yet strong baseline, be easily extended for downstream applications.Code available in https://fanegg.github.io/Human3R