TROPHIES: Temporal Reconstruction of Places, Humans, and Cameras from Multi-view Videos

作者: Jinpeng Liu, Yukang Xu, Yutong Li, Xingyu Liu

分类: cs.CV

发布日期: 2026-06-01

💡 一句话要点

TROPHIES：多视角视频中人物、场景和相机的时序重建

🎯 匹配领域: 支柱四：生成式动作 (Generative Motion)

关键词: 多视角重建 人体建模 场景重建 相机姿态估计 4D重建 全局优化 时序一致性

📋 核心要点

现有方法在多视角场景下，难以实现人物、场景和相机的一致性重建，导致几何结构不连贯，运动不稳定。
TROPHIES框架通过统一的人体分支和场景分支，结合全局对齐和优化模块，实现人物、场景和相机的联合重建。
实验结果表明，TROPHIES在全局保真度和人物-场景一致性方面优于现有方法，实现了物理上合理的4D重建。

📝 摘要（中文）

在全局一致的4D空间中重建人物及其周围环境对于全面感知至关重要。然而，现有方法通常假设单视角输入或将人物、场景和相机解耦，导致无法恢复连贯的几何结构、稳定的运动和物理对齐的轨迹。这些限制促使我们引入一项新任务：多视角视频中的统一人物-场景-相机重建，旨在在一个全局坐标系中联合估计动态人物、静态场景和相机姿态。我们提出了TROPHIES——多视角视频中人物、场景和相机的时序重建——一个为该任务量身定制的统一框架。TROPHIES包含一个通过时序和空间推理来建模人物的人体分支，以及一个利用人物感知注意力重建静态几何体的场景分支。一个全局对齐和优化模块通过强制尺度一致性、接触先验和跨视角时序一致性来耦合这两个分支。在EgoHuman和EgoExo4D上的实验表明，TROPHIES实现了全局对齐、物理上合理的4D重建，并在全局保真度和人物-场景一致性方面始终优于现有范例。

🔬 方法详解

问题定义：论文旨在解决多视角视频中人物、静态场景和相机姿态的联合重建问题。现有方法通常是单视角的，或者将人物、场景和相机解耦处理，导致重建结果在几何结构、运动轨迹和物理对齐上存在不一致性。这些方法难以捕捉动态人物与静态场景之间的交互关系，无法实现全局一致的4D重建。

核心思路：论文的核心思路是设计一个统一的框架，同时考虑人物、场景和相机，并在一个全局坐标系下进行联合优化。通过引入人体分支和场景分支，分别建模动态人物和静态场景，并利用全局对齐和优化模块，强制尺度一致性、接触先验和跨视角时序一致性，从而实现全局一致且物理上合理的4D重建。

技术框架：TROPHIES框架包含以下主要模块：1) 人体分支：利用时序和空间推理建模动态人物。2) 场景分支：利用人物感知注意力重建静态几何体。3) 全局对齐和优化模块：通过强制尺度一致性、接触先验和跨视角时序一致性，耦合人体分支和场景分支。

关键创新：该论文的关键创新在于提出了一个统一的框架，能够同时处理人物、场景和相机重建，并实现全局一致的4D重建。与现有方法相比，TROPHIES能够更好地捕捉人物与场景之间的交互关系，并生成物理上更合理的重建结果。此外，人物感知注意力机制能够提升场景重建的质量。

关键设计：具体的技术细节包括：1) 人体分支采用时序建模方法，例如循环神经网络或Transformer，以捕捉人物的运动信息。2) 场景分支采用人物感知注意力机制，根据人物的位置和姿态，调整场景重建的权重。3) 全局对齐和优化模块采用非线性优化方法，例如Bundle Adjustment，以最小化重建误差，并强制尺度一致性、接触先验和跨视角时序一致性。

🖼️ 关键图片

📊 实验亮点

TROPHIES在EgoHuman和EgoExo4D数据集上进行了评估，实验结果表明，该方法在全局保真度和人物-场景一致性方面均优于现有方法。具体而言，TROPHIES能够生成全局对齐、物理上合理的4D重建，并显著减少了人物与场景之间的穿透现象。定量指标显示，TROPHIES在重建精度和一致性方面取得了显著提升。

🎯 应用场景

该研究成果可应用于虚拟现实、增强现实、机器人导航、自动驾驶、人机交互等领域。例如，在虚拟现实中，可以利用该技术重建真实场景和人物，提供更逼真的沉浸式体验。在机器人导航中，可以帮助机器人理解周围环境，并与人进行自然的交互。在自动驾驶中，可以用于感知周围的行人和其他车辆，提高驾驶安全性。

📄 摘要（原文）

Reconstructing humans and their surrounding environments in a globally consistent 4D space is essential for comprehensive perception. However, prior works typically assume single-view inputs or decouple humans, scenes, and cameras, making them unable to recover coherent geometry, stable motion, and physically aligned trajectories. These limitations motivate us to introduce a new task: unified human-scene-camera reconstruction from multi-view videos, which aims to jointly estimate dynamic humans, static scenes, and camera poses in one global coordinate frame. We propose TROPHIES--Temporal Reconstruction of Places, Humans, and Cameras from Multi-view Videos-a unified framework tailored for this task. TROPHIES features a Human Branch that models humans through temporal and spatial reasoning, and a Scene Branch that reconstructs static geometry with human-aware attention. A global alignment and optimization module couples both branches by enforcing scale consistency, contact priors, and cross-view temporal coherence. Experiments on EgoHuman and EgoExo4D demonstrate that TROPHIES achieves globally aligned, physically plausible 4D reconstructions and consistently outperforms existing paradigms in both global fidelity and human-scene consistency.

TROPHIES: Temporal Reconstruction of Places, Humans, and Cameras from Multi-view Videos

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理