ODHSR: Online Dense 3D Reconstruction of Humans and Scenes from Monocular Videos
作者: Zetong Zhang, Manuel Kaufmann, Lixin Xue, Jie Song, Martin R. Oswald
分类: cs.CV
发布日期: 2025-04-17 (更新: 2025-04-18)
备注: Accepted at CVPR 2025
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出ODHSR,实现单目视频中人体与场景的在线稠密3D重建
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 人体重建 场景重建 3D高斯溅射 相机跟踪 姿态估计 单目视频 在线重建
📋 核心要点
- 现有整体人体-场景重建方法依赖预校准的相机和人体姿态,且训练耗时过长,限制了其应用。
- ODHSR利用3D高斯溅射表示人体和场景,并结合重建损失进行相机跟踪和姿态估计,实现高效解耦。
- 实验表明,ODHSR在相机跟踪、姿态估计和新视角合成等方面,性能与现有方法持平或更优,且具备在线运行能力。
📝 摘要(中文)
本文提出了一种新颖的统一框架,用于从单目视频中在线地同时进行相机跟踪、人体姿态估计以及人体-场景重建。该框架利用3D高斯溅射高效地学习人体和场景的高斯基元,并设计了基于重建的相机跟踪和人体姿态估计模块,以实现对姿态和外观的整体理解和有效解耦。特别地,设计了一个人体变形模块,以忠实地重建细节并增强对分布外姿态的泛化能力。为了准确学习人体和场景之间的空间相关性,引入了遮挡感知的人体轮廓渲染和单目几何先验,进一步提高了重建质量。在EMDB和NeuMan数据集上的实验表明,在相机跟踪、人体姿态估计、新视角合成和运行时间方面,该方法优于或与现有方法相当。
🔬 方法详解
问题定义:现有方法在单目视频中进行人体和场景的联合3D重建时,通常需要预先校准的相机参数和人体姿态,并且训练时间长,难以满足在线应用的需求。此外,如何有效地解耦人体姿态和外观,以及准确地建模人体与场景之间的空间关系,也是一个挑战。
核心思路:本文的核心思路是利用3D高斯溅射(3D Gaussian Splatting)来表示人体和场景,并设计一个统一的框架,同时进行相机跟踪、人体姿态估计和人体-场景重建。通过基于重建的相机跟踪和人体姿态估计模块,实现姿态和外观的有效解耦。同时,引入人体变形模块和遮挡感知的人体轮廓渲染,以提高重建质量和泛化能力。
技术框架:ODHSR框架包含以下主要模块:1) 3D高斯溅射表示:使用3D高斯基元表示人体和场景。2) 相机跟踪模块:基于重建损失优化相机位姿。3) 人体姿态估计模块:基于重建损失优化人体姿态。4) 人体变形模块:用于重建人体细节并提高泛化能力。5) 遮挡感知的人体轮廓渲染:用于准确建模人体与场景之间的空间关系。整个流程是online的,即逐帧处理视频数据,并不断优化各个模块的参数。
关键创新:该方法的主要创新点在于:1) 提出了一种统一的框架,可以同时进行相机跟踪、人体姿态估计和人体-场景重建。2) 利用3D高斯溅射表示人体和场景,提高了重建效率。3) 设计了人体变形模块和遮挡感知的人体轮廓渲染,提高了重建质量和泛化能力。与现有方法相比,ODHSR无需预校准的相机参数和人体姿态,并且可以在线运行。
关键设计:人体变形模块的具体实现细节未知,但其目标是学习一个从canonical pose到observed pose的形变。遮挡感知的人体轮廓渲染可能涉及到计算人体轮廓与场景的交集,并根据交集的大小调整重建损失的权重。损失函数的设计可能包括重建损失、正则化损失等,用于约束高斯基元的形状和位置。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ODHSR在EMDB和NeuMan数据集上,在相机跟踪、人体姿态估计、新视角合成和运行时间方面,性能优于或与现有方法相当。尤其是在在线运行速度方面,相比于需要离线训练的方法,ODHSR具有显著优势。具体的性能指标和提升幅度在论文中进行了详细的量化分析。
🎯 应用场景
该研究成果可应用于虚拟现实、增强现实、游戏开发等领域。例如,可以用于创建逼真的人体和场景的3D模型,从而提高用户在虚拟环境中的沉浸感。此外,该方法还可以用于运动捕捉、人体姿态识别等任务,具有广泛的应用前景。
📄 摘要(原文)
Creating a photorealistic scene and human reconstruction from a single monocular in-the-wild video figures prominently in the perception of a human-centric 3D world. Recent neural rendering advances have enabled holistic human-scene reconstruction but require pre-calibrated camera and human poses, and days of training time. In this work, we introduce a novel unified framework that simultaneously performs camera tracking, human pose estimation and human-scene reconstruction in an online fashion. 3D Gaussian Splatting is utilized to learn Gaussian primitives for humans and scenes efficiently, and reconstruction-based camera tracking and human pose estimation modules are designed to enable holistic understanding and effective disentanglement of pose and appearance. Specifically, we design a human deformation module to reconstruct the details and enhance generalizability to out-of-distribution poses faithfully. Aiming to learn the spatial correlation between human and scene accurately, we introduce occlusion-aware human silhouette rendering and monocular geometric priors, which further improve reconstruction quality. Experiments on the EMDB and NeuMan datasets demonstrate superior or on-par performance with existing methods in camera tracking, human pose estimation, novel view synthesis and runtime. Our project page is at https://eth-ait.github.io/ODHSR.