Human3R: Everyone Everywhere All at Once

作者: Yue Chen, Xingyu Chen, Yuxuan Xue, Anpei Chen, Yuliang Xiu, Gerard Pons-Moll

分类: cs.CV

发布日期: 2025-10-07

备注: Page: https://fanegg.github.io/Human3R Code: https://github.com/fanegg/Human3R

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

Human3R：提出统一的单目视频4D人体场景重建框架，实现多人、场景和相机轨迹的实时重建。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱四：生成式动作 (Generative Motion) 支柱六：视频提取与匹配 (Video Extraction) 支柱七：动作重定向 (Motion Retargeting) 支柱八：物理动画 (Physics-based Animation)

关键词: 4D人体场景重建 单目视频 多人姿态估计 场景重建 相机姿态估计

📋 核心要点

现有方法依赖多阶段流程和外部依赖，计算成本高，难以实时重建复杂场景。
Human3R采用统一的前馈框架，通过视觉提示调整，在CUT3R基础上实现多人、场景和相机轨迹的联合重建。
实验表明，Human3R在多个任务上达到SOTA或具有竞争力的性能，且速度达到15FPS，内存占用仅8GB。

📝 摘要（中文）

本文提出Human3R，一个统一的前馈框架，用于从随意拍摄的单目视频中在线重建世界坐标系下的4D人体场景。与以往依赖多阶段流程、人与场景之间迭代接触感知优化以及严重依赖（例如，人体检测、深度估计和SLAM预处理）的方法不同，Human3R在一个前向过程中联合恢复全局多人SMPL-X人体姿态（“所有人”）、密集3D场景（“所有地点”）和相机轨迹（“一次性”）。我们的方法建立在4D在线重建模型CUT3R的基础上，并使用参数高效的视觉提示调整，以努力保留CUT3R丰富的时空先验，同时能够直接读取多个SMPL-X人体。Human3R是一个统一的模型，消除了沉重的依赖和迭代优化。在相对小规模的合成数据集BEDLAM上仅用一个GPU训练一天后，它以卓越的效率实现了卓越的性能：它以单次方式重建多个人体，以及3D场景，在一个阶段中，以实时速度（15 FPS）和低内存占用（8 GB）运行。大量的实验表明，Human3R在包括全局人体运动估计、局部人体网格恢复、视频深度估计和相机姿态估计等任务中，以单一统一模型提供最先进或具有竞争力的性能。我们希望Human3R将作为一个简单而强大的基线，可以很容易地扩展到下游应用。

🔬 方法详解

问题定义：现有方法在4D人体场景重建中存在依赖性强、流程复杂、计算量大的问题，难以实现实时和高效的重建。特别是，它们通常依赖于人体检测、深度估计和SLAM等预处理步骤，并且需要迭代优化人与场景之间的交互。

核心思路：Human3R的核心思路是构建一个统一的前馈网络，能够一次性地从单目视频中恢复多人SMPL-X模型、密集3D场景和相机轨迹。通过参数高效的视觉提示调整，保留了CUT3R的时空先验知识，并实现了多个人体的直接读取。

技术框架：Human3R建立在CUT3R模型之上，采用视觉提示调整（Visual Prompt Tuning）的方式，将SMPL-X人体参数的预测能力集成到CUT3R中。整个框架是一个端到端的网络，输入是单目视频帧，输出是多人SMPL-X模型、场景几何和相机姿态。该框架避免了传统方法中多阶段的pipeline和迭代优化。

关键创新：Human3R的关键创新在于其统一的框架和视觉提示调整方法。它消除了对人体检测、深度估计和SLAM等外部依赖的需求，实现了多人、场景和相机轨迹的联合重建。视觉提示调整使得模型能够在保留CUT3R时空先验的同时，学习SMPL-X人体参数的预测。

关键设计：Human3R的关键设计包括：1) 使用CUT3R作为基础模型，继承其强大的时空建模能力；2) 采用视觉提示调整，将SMPL-X人体参数预测能力集成到CUT3R中；3) 设计合适的损失函数，用于训练模型，包括SMPL-X参数损失、场景几何损失和相机姿态损失。具体参数设置和网络结构细节在论文中有详细描述（未知）。

🖼️ 关键图片

📊 实验亮点

Human3R在BEDLAM数据集上训练后，在多个任务上取得了state-of-the-art或具有竞争力的性能。例如，在全局人体运动估计、局部人体网格恢复、视频深度估计和相机姿态估计等任务中，Human3R均表现出色。此外，Human3R具有很高的效率，能够以15 FPS的速度实时重建多人场景，且内存占用仅为8 GB。

🎯 应用场景

Human3R具有广泛的应用前景，包括虚拟现实、增强现实、游戏、机器人导航、人机交互、运动分析和智能监控等领域。它可以用于创建逼真的虚拟环境，实现自然的人机交互，以及进行运动捕捉和分析。该研究的未来影响在于推动4D人体场景重建技术的发展，并为相关应用提供更高效和准确的解决方案。

📄 摘要（原文）

We present Human3R, a unified, feed-forward framework for online 4D human-scene reconstruction, in the world frame, from casually captured monocular videos. Unlike previous approaches that rely on multi-stage pipelines, iterative contact-aware refinement between humans and scenes, and heavy dependencies, e.g., human detection, depth estimation, and SLAM pre-processing, Human3R jointly recovers global multi-person SMPL-X bodies ("everyone"), dense 3D scene ("everywhere"), and camera trajectories in a single forward pass ("all-at-once"). Our method builds upon the 4D online reconstruction model CUT3R, and uses parameter-efficient visual prompt tuning, to strive to preserve CUT3R's rich spatiotemporal priors, while enabling direct readout of multiple SMPL-X bodies. Human3R is a unified model that eliminates heavy dependencies and iterative refinement. After being trained on the relatively small-scale synthetic dataset BEDLAM for just one day on one GPU, it achieves superior performance with remarkable efficiency: it reconstructs multiple humans in a one-shot manner, along with 3D scenes, in one stage, at real-time speed (15 FPS) with a low memory footprint (8 GB). Extensive experiments demonstrate that Human3R delivers state-of-the-art or competitive performance across tasks, including global human motion estimation, local human mesh recovery, video depth estimation, and camera pose estimation, with a single unified model. We hope that Human3R will serve as a simple yet strong baseline, be easily extended for downstream applications.Code available in https://fanegg.github.io/Human3R

Human3R: Everyone Everywhere All at Once

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理