Coherent Human-Scene Reconstruction from Multi-Person Multi-View Video in a Single Pass
作者: Sangmin Kim, Minhyuk Hwang, Geonho Cha, Dongyoon Wee, Jaesik Park
分类: cs.CV
发布日期: 2026-03-13
备注: Project page: https://nstar1125.github.io/chromm
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出CHROMM,单次处理多视角视频,实现一致的人体-场景重建。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多视角重建 人体姿态估计 场景重建 神经网络 几何先验
📋 核心要点
- 现有方法主要集中在单目输入,扩展到多视角需要额外的模块或预处理,效率较低。
- CHROMM将几何和人体先验集成到统一的神经网络中,并提出尺度调整和多视角融合策略。
- 实验表明,CHROMM在人体运动和姿态估计方面具有竞争力,且速度比现有方法快8倍以上。
📝 摘要(中文)
本文提出CHROMM,一个统一的框架,用于从多人多视角视频中联合估计相机参数、场景点云和人体网格,无需外部模块或预处理。CHROMM将Pi3X和Multi-HMR中的几何和人体先验集成到一个可训练的神经网络架构中,并引入尺度调整模块来解决人体和场景之间的尺度差异。此外,还提出了一种多视角融合策略,用于在测试时将每个视角的估计聚合为单个表示。最后,提出了一种基于几何的多人关联方法,该方法比基于外观的方法更鲁棒。在EMDB、RICH、EgoHumans和EgoExo4D上的实验表明,CHROMM在全局人体运动和多视角姿态估计方面取得了有竞争力的性能,同时比以往基于优化的多视角方法快8倍以上。
🔬 方法详解
问题定义:现有的三维人体和场景重建方法大多依赖于单目视觉输入,难以直接扩展到多视角场景。即使是多视角方法,也常常需要额外的预处理步骤或外部模块,例如显式的相机标定或复杂的后处理,这增加了系统的复杂性和计算成本。此外,如何有效地融合多视角信息,并解决人体和场景之间的尺度不一致性,也是一个挑战。
核心思路:CHROMM的核心思路是将人体和场景的重建问题统一到一个可训练的神经网络框架中,利用强大的几何和人体先验知识,直接从多视角视频中联合估计相机参数、场景点云和人体网格。通过端到端的方式避免了复杂的预处理和后处理步骤,提高了效率和精度。
技术框架:CHROMM的整体架构是一个统一的神经网络,它接收多视角视频作为输入,并输出相机参数、场景点云和人体网格。该框架主要包含以下几个模块:1) 基于Pi3X的场景重建模块,用于估计场景的点云;2) 基于Multi-HMR的人体网格重建模块,用于估计人体姿态和形状;3) 尺度调整模块,用于解决人体和场景之间的尺度差异;4) 多视角融合模块,用于将每个视角的估计聚合为单个表示;5) 基于几何的多人关联模块,用于区分和关联不同的人。
关键创新:CHROMM的关键创新在于其统一的框架,它将场景和人体重建集成到一个可训练的神经网络中,无需外部模块或预处理。此外,提出的尺度调整模块和多视角融合策略有效地解决了人体和场景之间的尺度差异以及多视角信息融合的问题。基于几何的多人关联方法也比传统的基于外观的方法更加鲁棒。
关键设计:尺度调整模块通过学习一个尺度因子来校正人体和场景之间的尺度差异。多视角融合模块采用加权平均的方式,根据每个视角的置信度来融合不同视角的估计。损失函数包括场景重建损失、人体网格重建损失、相机参数损失和尺度调整损失。网络结构细节(如具体层数、激活函数等)未知。
🖼️ 关键图片
📊 实验亮点
CHROMM在EMDB、RICH、EgoHumans和EgoExo4D等数据集上进行了评估,实验结果表明,CHROMM在全局人体运动和多视角姿态估计方面取得了有竞争力的性能,同时比以往基于优化的多视角方法快8倍以上。这表明CHROMM在效率和精度方面都具有显著优势。
🎯 应用场景
该研究成果可应用于虚拟现实/增强现实(VR/AR)、人机交互、自动驾驶、机器人导航、运动分析、安防监控等领域。例如,在VR/AR中,可以用于创建逼真的虚拟环境,并实现与虚拟人物的自然交互。在自动驾驶中,可以用于感知周围环境和行人,提高安全性。在机器人导航中,可以用于构建地图和定位自身位置。
📄 摘要(原文)
Recent advances in 3D foundation models have led to growing interest in reconstructing humans and their surrounding environments. However, most existing approaches focus on monocular inputs, and extending them to multi-view settings requires additional overhead modules or preprocessed data. To this end, we present CHROMM, a unified framework that jointly estimates cameras, scene point clouds, and human meshes from multi-person multi-view videos without relying on external modules or preprocessing. We integrate strong geometric and human priors from Pi3X and Multi-HMR into a single trainable neural network architecture, and introduce a scale adjustment module to solve the scale discrepancy between humans and the scene. We also introduce a multi-view fusion strategy to aggregate per-view estimates into a single representation at test-time. Finally, we propose a geometry-based multi-person association method, which is more robust than appearance-based approaches. Experiments on EMDB, RICH, EgoHumans, and EgoExo4D show that CHROMM achieves competitive performance in global human motion and multi-view pose estimation while running over 8x faster than prior optimization-based multi-view approaches. Project page: https://nstar1125.github.io/chromm.