TROPHIES: Temporal Reconstruction of Places, Humans, and Cameras from Multi-view Videos

📄 arXiv: 2606.02350v1 📥 PDF

作者: Jinpeng Liu, Yukang Xu, Yutong Li, Xingyu Liu

分类: cs.CV

发布日期: 2026-06-01


💡 一句话要点

TROPHIES:多视角视频中人物、场景和相机的时序重建

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 多视角重建 人体建模 场景重建 相机姿态估计 4D重建 全局优化 时序一致性

📋 核心要点

  1. 现有方法在多视角场景下,难以实现人物、场景和相机的一致性重建,导致几何结构不连贯,运动不稳定。
  2. TROPHIES框架通过统一的人体分支和场景分支,结合全局对齐和优化模块,实现人物、场景和相机的联合重建。
  3. 实验结果表明,TROPHIES在全局保真度和人物-场景一致性方面优于现有方法,实现了物理上合理的4D重建。

📝 摘要(中文)

在全局一致的4D空间中重建人物及其周围环境对于全面感知至关重要。然而,现有方法通常假设单视角输入或将人物、场景和相机解耦,导致无法恢复连贯的几何结构、稳定的运动和物理对齐的轨迹。这些限制促使我们引入一项新任务:多视角视频中的统一人物-场景-相机重建,旨在在一个全局坐标系中联合估计动态人物、静态场景和相机姿态。我们提出了TROPHIES——多视角视频中人物、场景和相机的时序重建——一个为该任务量身定制的统一框架。TROPHIES包含一个通过时序和空间推理来建模人物的人体分支,以及一个利用人物感知注意力重建静态几何体的场景分支。一个全局对齐和优化模块通过强制尺度一致性、接触先验和跨视角时序一致性来耦合这两个分支。在EgoHuman和EgoExo4D上的实验表明,TROPHIES实现了全局对齐、物理上合理的4D重建,并在全局保真度和人物-场景一致性方面始终优于现有范例。

🔬 方法详解

问题定义:论文旨在解决多视角视频中人物、静态场景和相机姿态的联合重建问题。现有方法通常是单视角的,或者将人物、场景和相机解耦处理,导致重建结果在几何结构、运动轨迹和物理对齐上存在不一致性。这些方法难以捕捉动态人物与静态场景之间的交互关系,无法实现全局一致的4D重建。

核心思路:论文的核心思路是设计一个统一的框架,同时考虑人物、场景和相机,并在一个全局坐标系下进行联合优化。通过引入人体分支和场景分支,分别建模动态人物和静态场景,并利用全局对齐和优化模块,强制尺度一致性、接触先验和跨视角时序一致性,从而实现全局一致且物理上合理的4D重建。

技术框架:TROPHIES框架包含以下主要模块:1) 人体分支:利用时序和空间推理建模动态人物。2) 场景分支:利用人物感知注意力重建静态几何体。3) 全局对齐和优化模块:通过强制尺度一致性、接触先验和跨视角时序一致性,耦合人体分支和场景分支。

关键创新:该论文的关键创新在于提出了一个统一的框架,能够同时处理人物、场景和相机重建,并实现全局一致的4D重建。与现有方法相比,TROPHIES能够更好地捕捉人物与场景之间的交互关系,并生成物理上更合理的重建结果。此外,人物感知注意力机制能够提升场景重建的质量。

关键设计:具体的技术细节包括:1) 人体分支采用时序建模方法,例如循环神经网络或Transformer,以捕捉人物的运动信息。2) 场景分支采用人物感知注意力机制,根据人物的位置和姿态,调整场景重建的权重。3) 全局对齐和优化模块采用非线性优化方法,例如Bundle Adjustment,以最小化重建误差,并强制尺度一致性、接触先验和跨视角时序一致性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TROPHIES在EgoHuman和EgoExo4D数据集上进行了评估,实验结果表明,该方法在全局保真度和人物-场景一致性方面均优于现有方法。具体而言,TROPHIES能够生成全局对齐、物理上合理的4D重建,并显著减少了人物与场景之间的穿透现象。定量指标显示,TROPHIES在重建精度和一致性方面取得了显著提升。

🎯 应用场景

该研究成果可应用于虚拟现实、增强现实、机器人导航、自动驾驶、人机交互等领域。例如,在虚拟现实中,可以利用该技术重建真实场景和人物,提供更逼真的沉浸式体验。在机器人导航中,可以帮助机器人理解周围环境,并与人进行自然的交互。在自动驾驶中,可以用于感知周围的行人和其他车辆,提高驾驶安全性。

📄 摘要(原文)

Reconstructing humans and their surrounding environments in a globally consistent 4D space is essential for comprehensive perception. However, prior works typically assume single-view inputs or decouple humans, scenes, and cameras, making them unable to recover coherent geometry, stable motion, and physically aligned trajectories. These limitations motivate us to introduce a new task: unified human-scene-camera reconstruction from multi-view videos, which aims to jointly estimate dynamic humans, static scenes, and camera poses in one global coordinate frame. We propose TROPHIES--Temporal Reconstruction of Places, Humans, and Cameras from Multi-view Videos-a unified framework tailored for this task. TROPHIES features a Human Branch that models humans through temporal and spatial reasoning, and a Scene Branch that reconstructs static geometry with human-aware attention. A global alignment and optimization module couples both branches by enforcing scale consistency, contact priors, and cross-view temporal coherence. Experiments on EgoHuman and EgoExo4D demonstrate that TROPHIES achieves globally aligned, physically plausible 4D reconstructions and consistently outperforms existing paradigms in both global fidelity and human-scene consistency.