ODHSR: Online Dense 3D Reconstruction of Humans and Scenes from Monocular Videos

📄 arXiv: 2504.13167v2 📥 PDF

作者: Zetong Zhang, Manuel Kaufmann, Lixin Xue, Jie Song, Martin R. Oswald

分类: cs.CV

发布日期: 2025-04-17 (更新: 2025-04-18)

备注: Accepted at CVPR 2025

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出ODHSR,实现单目视频中人体与场景的在线稠密3D重建

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 人体重建 场景重建 3D高斯溅射 相机跟踪 姿态估计 单目视频 在线重建

📋 核心要点

  1. 现有整体人体-场景重建方法依赖预校准的相机和人体姿态,且训练耗时过长,限制了其应用。
  2. ODHSR利用3D高斯溅射表示人体和场景,并结合重建损失进行相机跟踪和姿态估计,实现高效解耦。
  3. 实验表明,ODHSR在相机跟踪、姿态估计和新视角合成等方面,性能与现有方法持平或更优,且具备在线运行能力。

📝 摘要(中文)

本文提出了一种新颖的统一框架,用于从单目视频中在线地同时进行相机跟踪、人体姿态估计以及人体-场景重建。该框架利用3D高斯溅射高效地学习人体和场景的高斯基元,并设计了基于重建的相机跟踪和人体姿态估计模块,以实现对姿态和外观的整体理解和有效解耦。特别地,设计了一个人体变形模块,以忠实地重建细节并增强对分布外姿态的泛化能力。为了准确学习人体和场景之间的空间相关性,引入了遮挡感知的人体轮廓渲染和单目几何先验,进一步提高了重建质量。在EMDB和NeuMan数据集上的实验表明,在相机跟踪、人体姿态估计、新视角合成和运行时间方面,该方法优于或与现有方法相当。

🔬 方法详解

问题定义:现有方法在单目视频中进行人体和场景的联合3D重建时,通常需要预先校准的相机参数和人体姿态,并且训练时间长,难以满足在线应用的需求。此外,如何有效地解耦人体姿态和外观,以及准确地建模人体与场景之间的空间关系,也是一个挑战。

核心思路:本文的核心思路是利用3D高斯溅射(3D Gaussian Splatting)来表示人体和场景,并设计一个统一的框架,同时进行相机跟踪、人体姿态估计和人体-场景重建。通过基于重建的相机跟踪和人体姿态估计模块,实现姿态和外观的有效解耦。同时,引入人体变形模块和遮挡感知的人体轮廓渲染,以提高重建质量和泛化能力。

技术框架:ODHSR框架包含以下主要模块:1) 3D高斯溅射表示:使用3D高斯基元表示人体和场景。2) 相机跟踪模块:基于重建损失优化相机位姿。3) 人体姿态估计模块:基于重建损失优化人体姿态。4) 人体变形模块:用于重建人体细节并提高泛化能力。5) 遮挡感知的人体轮廓渲染:用于准确建模人体与场景之间的空间关系。整个流程是online的,即逐帧处理视频数据,并不断优化各个模块的参数。

关键创新:该方法的主要创新点在于:1) 提出了一种统一的框架,可以同时进行相机跟踪、人体姿态估计和人体-场景重建。2) 利用3D高斯溅射表示人体和场景,提高了重建效率。3) 设计了人体变形模块和遮挡感知的人体轮廓渲染,提高了重建质量和泛化能力。与现有方法相比,ODHSR无需预校准的相机参数和人体姿态,并且可以在线运行。

关键设计:人体变形模块的具体实现细节未知,但其目标是学习一个从canonical pose到observed pose的形变。遮挡感知的人体轮廓渲染可能涉及到计算人体轮廓与场景的交集,并根据交集的大小调整重建损失的权重。损失函数的设计可能包括重建损失、正则化损失等,用于约束高斯基元的形状和位置。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ODHSR在EMDB和NeuMan数据集上,在相机跟踪、人体姿态估计、新视角合成和运行时间方面,性能优于或与现有方法相当。尤其是在在线运行速度方面,相比于需要离线训练的方法,ODHSR具有显著优势。具体的性能指标和提升幅度在论文中进行了详细的量化分析。

🎯 应用场景

该研究成果可应用于虚拟现实、增强现实、游戏开发等领域。例如,可以用于创建逼真的人体和场景的3D模型,从而提高用户在虚拟环境中的沉浸感。此外,该方法还可以用于运动捕捉、人体姿态识别等任务,具有广泛的应用前景。

📄 摘要(原文)

Creating a photorealistic scene and human reconstruction from a single monocular in-the-wild video figures prominently in the perception of a human-centric 3D world. Recent neural rendering advances have enabled holistic human-scene reconstruction but require pre-calibrated camera and human poses, and days of training time. In this work, we introduce a novel unified framework that simultaneously performs camera tracking, human pose estimation and human-scene reconstruction in an online fashion. 3D Gaussian Splatting is utilized to learn Gaussian primitives for humans and scenes efficiently, and reconstruction-based camera tracking and human pose estimation modules are designed to enable holistic understanding and effective disentanglement of pose and appearance. Specifically, we design a human deformation module to reconstruct the details and enhance generalizability to out-of-distribution poses faithfully. Aiming to learn the spatial correlation between human and scene accurately, we introduce occlusion-aware human silhouette rendering and monocular geometric priors, which further improve reconstruction quality. Experiments on the EMDB and NeuMan datasets demonstrate superior or on-par performance with existing methods in camera tracking, human pose estimation, novel view synthesis and runtime. Our project page is at https://eth-ait.github.io/ODHSR.