EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents
作者: Wenjia Wang, Liang Pan, Huaijin Pi, Yuke Lou, Xuqian Ren, Yifan Wu, Zhouyingcheng Liao, Lei Yang, Rishabh Dabral, Christian Theobalt, Taku Komura
分类: cs.CV
发布日期: 2026-02-26
💡 一句话要点
EmbodMocap:提出一种基于双iPhone的便携式4D人-场景重建方法,用于具身智能体。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics) 支柱五:交互与反应 (Interaction & Reaction) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 4D人-场景重建 具身智能体 双目视觉 RGB-D 动作捕捉 场景理解 机器人控制
📋 核心要点
- 现有动作捕捉系统依赖昂贵的演播室设备和可穿戴设备,限制了在野外大规模收集场景条件下的运动数据。
- EmbodMocap利用双iPhone的RGB-D序列,联合校准重建人和场景,实现度量尺度和场景一致的捕获。
- 实验表明,双视图设置能有效缓解深度模糊,在人-场景重建、角色动画和机器人控制任务上表现优异。
📝 摘要(中文)
本文提出EmbodMocap,一种便携且经济实惠的数据采集流程,使用两个移动的iPhone。核心思想是联合校准双RGB-D序列,以在统一的度量世界坐标系中重建人和场景。该方法允许在日常环境中进行度量尺度和场景一致的捕获,无需静态相机或标记,从而无缝地桥接人体运动和场景几何。与光学捕获真值相比,双视图设置在减轻深度模糊方面表现出卓越的能力,在对齐和重建性能上优于单个iPhone或单目模型。基于收集的数据,本文验证了该方法在单目人-场景重建、基于物理的角色动画和机器人运动控制三个具身AI任务中的有效性。
🔬 方法详解
问题定义:现有的人体动作捕捉系统通常依赖于昂贵的专业设备和受限的室内环境,难以在真实世界场景中大规模地获取高质量的人体运动数据,这阻碍了具身智能体在复杂环境中的感知、理解和行动能力的发展。现有方法的痛点在于成本高昂、便携性差、难以捕捉人与环境的交互。
核心思路:EmbodMocap的核心思路是利用两个移动的iPhone作为传感器,通过联合校准双RGB-D序列,在统一的度量世界坐标系中同时重建人和场景。这种方法无需昂贵的设备和复杂的设置,可以在日常环境中进行数据采集,从而实现人体运动和场景几何的无缝桥接。双目视觉的引入可以有效缓解深度估计的模糊性,提高重建精度。
技术框架:EmbodMocap的数据采集流程主要包括以下几个阶段:1) 使用两个iPhone同时采集RGB-D视频序列;2) 对双目RGB-D序列进行联合校准,估计相机位姿和场景几何;3) 使用人体姿态估计方法从RGB图像中提取人体姿态;4) 将人体姿态和场景几何对齐到统一的度量世界坐标系中,得到4D人-场景重建结果。该框架的关键在于双目RGB-D序列的联合校准和人体姿态与场景几何的对齐。
关键创新:EmbodMocap最重要的技术创新点在于提出了一种低成本、便携式的4D人-场景重建方案,可以在真实世界场景中大规模地采集高质量的人体运动数据。与现有方法相比,EmbodMocap无需昂贵的设备和复杂的设置,可以在日常环境中进行数据采集,并且能够同时重建人和场景,实现人体运动和场景几何的无缝桥接。双目视觉的引入可以有效缓解深度估计的模糊性,提高重建精度。
关键设计:在双目RGB-D序列的联合校准方面,论文可能采用了基于优化的方法,通过最小化重投影误差来估计相机位姿和场景几何。在人体姿态估计方面,论文可能采用了现有的深度学习方法,例如使用预训练的姿态估计模型。在人体姿态与场景几何的对齐方面,论文可能采用了基于优化的方法,通过最小化人体姿态与场景几何之间的距离来对齐两者。
🖼️ 关键图片
📊 实验亮点
实验结果表明,EmbodMocap在对齐和重建性能上优于单个iPhone或单目模型,验证了双视图设置在减轻深度模糊方面的有效性。此外,基于EmbodMocap收集的数据,论文在单目人-场景重建、基于物理的角色动画和机器人运动控制三个具身AI任务上取得了良好的效果,证明了该方法的实用价值。
🎯 应用场景
EmbodMocap具有广泛的应用前景,例如可以用于训练具身智能体,使其能够在真实世界环境中进行感知、理解和行动。此外,EmbodMocap还可以用于虚拟现实、增强现实、游戏开发等领域,为用户提供更加沉浸式的体验。该研究的未来影响在于推动具身智能体和人机交互技术的发展。
📄 摘要(原文)
Human behaviors in the real world naturally encode rich, long-term contextual information that can be leveraged to train embodied agents for perception, understanding, and acting. However, existing capture systems typically rely on costly studio setups and wearable devices, limiting the large-scale collection of scene-conditioned human motion data in the wild. To address this, we propose EmbodMocap, a portable and affordable data collection pipeline using two moving iPhones. Our key idea is to jointly calibrate dual RGB-D sequences to reconstruct both humans and scenes within a unified metric world coordinate frame. The proposed method allows metric-scale and scene-consistent capture in everyday environments without static cameras or markers, bridging human motion and scene geometry seamlessly. Compared with optical capture ground truth, we demonstrate that the dual-view setting exhibits a remarkable ability to mitigate depth ambiguity, achieving superior alignment and reconstruction performance over single iphone or monocular models. Based on the collected data, we empower three embodied AI tasks: monocular human-scene-reconstruction, where we fine-tune on feedforward models that output metric-scale, world-space aligned humans and scenes; physics-based character animation, where we prove our data could be used to scale human-object interaction skills and scene-aware motion tracking; and robot motion control, where we train a humanoid robot via sim-to-real RL to replicate human motions depicted in videos. Experimental results validate the effectiveness of our pipeline and its contributions towards advancing embodied AI research.