Joint Optimization for 4D Human-Scene Reconstruction in the Wild

📄 arXiv: 2501.02158 📥 PDF

作者: Zhizheng Liu, Joe Lin, Wayne Wu, Bolei Zhou

分类: cs.CV

发布日期: 2026-02-28


💡 一句话要点

提出JOSH,用于野外单目视频中4D人体-场景联合重建

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱五:交互与反应 (Interaction & Reaction) 支柱六:视频提取与匹配 (Video Extraction) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 4D重建 人体姿态估计 场景重建 联合优化 单目视频

📋 核心要点

  1. 现有方法难以从网络视频中重建自然和多样的人体运动和场景上下文,这是理解人与场景交互的关键。
  2. JOSH利用人体-场景接触约束,联合优化场景、相机姿态和人体运动,实现更准确的4D重建。
  3. JOSH3R通过JOSH生成的伪标签进行训练,在无优化方法中表现出色,验证了JOSH的精度和泛化性。

📝 摘要(中文)

本文提出JOSH,一种新颖的基于优化的方法,用于从单目视频中进行野外4D人体-场景重建。JOSH利用密集场景重建和人体网格恢复技术作为初始化,然后利用人体-场景接触约束来联合优化场景、相机姿态和人体运动。实验结果表明,通过联合优化场景几何和人体运动,JOSH在全局人体运动估计和密集场景重建方面都取得了更好的结果。进一步设计了一个更高效的模型JOSH3R,并使用来自网络视频的伪标签直接训练它。JOSH3R仅使用从JOSH预测的标签进行训练,就优于其他无优化方法,进一步证明了其准确性和泛化能力。

🔬 方法详解

问题定义:论文旨在解决从野外单目视频中进行准确的4D人体-场景联合重建问题。现有方法在受限环境中表现良好,但难以处理网络视频中自然和多样的人体运动以及复杂的场景上下文。这些方法通常无法很好地利用人体与场景之间的交互信息,导致重建精度受限。

核心思路:论文的核心思路是利用人体与场景之间的接触约束,通过联合优化场景几何、相机姿态和人体运动,实现更准确的重建。这种联合优化能够充分利用场景和人体之间的互补信息,从而提高整体重建质量。

技术框架:JOSH的整体框架包括以下几个主要阶段:1) 使用现有的密集场景重建和人体网格恢复技术进行初始化;2) 利用检测到的人体和重建的场景,建立人体-场景接触约束;3) 通过优化算法,联合优化场景几何、相机姿态和人体运动,使得重建结果满足人体-场景接触约束。JOSH3R则是在JOSH的基础上,使用JOSH生成的伪标签进行训练,从而实现更高效的重建。

关键创新:论文的关键创新在于提出了一种基于优化的方法,能够联合优化场景几何、相机姿态和人体运动,并充分利用人体-场景接触约束。此外,通过使用JOSH生成的伪标签训练JOSH3R,实现了在无优化方法中具有竞争力的性能。

关键设计:JOSH的关键设计包括:1) 精心设计的人体-场景接触约束,能够有效地约束优化过程;2) 优化的目标函数,综合考虑了场景重建误差、人体运动误差和接触约束误差;3) JOSH3R的网络结构,使其能够有效地学习JOSH生成的伪标签,并实现高效的重建。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,JOSH在全局人体运动估计和密集场景重建方面都取得了显著的提升。JOSH3R仅使用JOSH生成的伪标签进行训练,就优于其他无优化方法,证明了JOSH的准确性和泛化能力。这些结果表明,联合优化人体和场景能够有效地提高4D重建的精度。

🎯 应用场景

该研究成果可应用于虚拟现实、增强现实、人机交互、机器人导航等领域。例如,可以用于创建更逼真的虚拟环境,实现更自然的人机交互,或者帮助机器人更好地理解和适应周围环境。未来,该技术有望应用于自动驾驶、智能家居等更广泛的领域。

📄 摘要(原文)

Reconstructing human motion and its surrounding environment is crucial for understanding human-scene interaction and predicting human movements in the scene. While much progress has been made in capturing human-scene interaction in constrained environments, those prior methods can hardly reconstruct the natural and diverse human motion and scene context from web videos. In this work, we propose JOSH, a novel optimization-based method for 4D human-scene reconstruction in the wild from monocular videos. JOSH uses techniques in both dense scene reconstruction and human mesh recovery as initialization, and then it leverages the human-scene contact constraints to jointly optimize the scene, the camera poses, and the human motion. Experiment results show JOSH achieves better results on both global human motion estimation and dense scene reconstruction by joint optimization of scene geometry and human motion. We further design a more efficient model, JOSH3R, and directly train it with pseudo-labels from web videos. JOSH3R outperforms other optimization-free methods by only training with labels predicted from JOSH, further demonstrating its accuracy and generalization ability.