ODHSR: Online Dense 3D Reconstruction of Humans and Scenes from Monocular Videos

作者: Zetong Zhang, Manuel Kaufmann, Lixin Xue, Jie Song, Martin R. Oswald

分类: cs.CV

发布日期: 2025-04-17 (更新: 2025-04-18)

备注: Accepted at CVPR 2025

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出ODHSR，实现单目视频中人体与场景的在线稠密3D重建

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 人体重建 场景重建 3D高斯溅射 相机跟踪 姿态估计 单目视频 在线重建

📋 核心要点

现有整体人体-场景重建方法依赖预校准的相机和人体姿态，且训练耗时过长，限制了其应用。
ODHSR利用3D高斯溅射表示人体和场景，并结合重建损失进行相机跟踪和姿态估计，实现高效解耦。
实验表明，ODHSR在相机跟踪、姿态估计和新视角合成等方面，性能与现有方法持平或更优，且具备在线运行能力。

📝 摘要（中文）

本文提出了一种新颖的统一框架，用于从单目视频中在线地同时进行相机跟踪、人体姿态估计以及人体-场景重建。该框架利用3D高斯溅射高效地学习人体和场景的高斯基元，并设计了基于重建的相机跟踪和人体姿态估计模块，以实现对姿态和外观的整体理解和有效解耦。特别地，设计了一个人体变形模块，以忠实地重建细节并增强对分布外姿态的泛化能力。为了准确学习人体和场景之间的空间相关性，引入了遮挡感知的人体轮廓渲染和单目几何先验，进一步提高了重建质量。在EMDB和NeuMan数据集上的实验表明，在相机跟踪、人体姿态估计、新视角合成和运行时间方面，该方法优于或与现有方法相当。

🔬 方法详解

问题定义：现有方法在单目视频中进行人体和场景的联合3D重建时，通常需要预先校准的相机参数和人体姿态，并且训练时间长，难以满足在线应用的需求。此外，如何有效地解耦人体姿态和外观，以及准确地建模人体与场景之间的空间关系，也是一个挑战。

核心思路：本文的核心思路是利用3D高斯溅射（3D Gaussian Splatting）来表示人体和场景，并设计一个统一的框架，同时进行相机跟踪、人体姿态估计和人体-场景重建。通过基于重建的相机跟踪和人体姿态估计模块，实现姿态和外观的有效解耦。同时，引入人体变形模块和遮挡感知的人体轮廓渲染，以提高重建质量和泛化能力。

技术框架：ODHSR框架包含以下主要模块：1) 3D高斯溅射表示：使用3D高斯基元表示人体和场景。2) 相机跟踪模块：基于重建损失优化相机位姿。3) 人体姿态估计模块：基于重建损失优化人体姿态。4) 人体变形模块：用于重建人体细节并提高泛化能力。5) 遮挡感知的人体轮廓渲染：用于准确建模人体与场景之间的空间关系。整个流程是online的，即逐帧处理视频数据，并不断优化各个模块的参数。

关键创新：该方法的主要创新点在于：1) 提出了一种统一的框架，可以同时进行相机跟踪、人体姿态估计和人体-场景重建。2) 利用3D高斯溅射表示人体和场景，提高了重建效率。3) 设计了人体变形模块和遮挡感知的人体轮廓渲染，提高了重建质量和泛化能力。与现有方法相比，ODHSR无需预校准的相机参数和人体姿态，并且可以在线运行。

关键设计：人体变形模块的具体实现细节未知，但其目标是学习一个从canonical pose到observed pose的形变。遮挡感知的人体轮廓渲染可能涉及到计算人体轮廓与场景的交集，并根据交集的大小调整重建损失的权重。损失函数的设计可能包括重建损失、正则化损失等，用于约束高斯基元的形状和位置。

🖼️ 关键图片

📊 实验亮点

实验结果表明，ODHSR在EMDB和NeuMan数据集上，在相机跟踪、人体姿态估计、新视角合成和运行时间方面，性能优于或与现有方法相当。尤其是在在线运行速度方面，相比于需要离线训练的方法，ODHSR具有显著优势。具体的性能指标和提升幅度在论文中进行了详细的量化分析。

🎯 应用场景

该研究成果可应用于虚拟现实、增强现实、游戏开发等领域。例如，可以用于创建逼真的人体和场景的3D模型，从而提高用户在虚拟环境中的沉浸感。此外，该方法还可以用于运动捕捉、人体姿态识别等任务，具有广泛的应用前景。

📄 摘要（原文）

Creating a photorealistic scene and human reconstruction from a single monocular in-the-wild video figures prominently in the perception of a human-centric 3D world. Recent neural rendering advances have enabled holistic human-scene reconstruction but require pre-calibrated camera and human poses, and days of training time. In this work, we introduce a novel unified framework that simultaneously performs camera tracking, human pose estimation and human-scene reconstruction in an online fashion. 3D Gaussian Splatting is utilized to learn Gaussian primitives for humans and scenes efficiently, and reconstruction-based camera tracking and human pose estimation modules are designed to enable holistic understanding and effective disentanglement of pose and appearance. Specifically, we design a human deformation module to reconstruct the details and enhance generalizability to out-of-distribution poses faithfully. Aiming to learn the spatial correlation between human and scene accurately, we introduce occlusion-aware human silhouette rendering and monocular geometric priors, which further improve reconstruction quality. Experiments on the EMDB and NeuMan datasets demonstrate superior or on-par performance with existing methods in camera tracking, human pose estimation, novel view synthesis and runtime. Our project page is at https://eth-ait.github.io/ODHSR.

ODHSR: Online Dense 3D Reconstruction of Humans and Scenes from Monocular Videos

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理