CRISP: Contact-Guided Real2Sim from Monocular Video with Planar Scene Primitives

📄 arXiv: 2512.14696v2 📥 PDF

作者: Zihan Wang, Jiashun Wang, Jeff Tan, Yiwen Zhao, Jessica Hodgins, Shubham Tulsiani, Deva Ramanan

分类: cs.CV, cs.GR, cs.RO

发布日期: 2025-12-16 (更新: 2025-12-21)

备注: Project page: https://crisp-real2sim.github.io/CRISP-Real2Sim/


💡 一句话要点

CRISP:基于单目视频和平面场景原语的接触引导Real2Sim方法

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 人体姿态估计 场景重建 单目视频 物理仿真 强化学习 人机交互 平面原语 Real2Sim

📋 核心要点

  1. 现有方法在人体-场景联合重建中存在不足,依赖数据先验或产生噪声几何,导致交互模拟失败。
  2. CRISP通过平面原语拟合点云重建,并结合人体-场景接触建模,恢复干净且物理合理的场景几何。
  3. 实验表明,CRISP显著降低了运动跟踪失败率,提高了强化学习模拟的效率,并在多种视频上验证了有效性。

📝 摘要(中文)

CRISP是一种从单目视频中恢复可模拟的人体运动和场景几何的方法。现有的人体-场景联合重建工作依赖于数据驱动的先验和无物理引擎的联合优化,或者恢复的几何体存在噪声和伪影,导致基于场景交互的运动跟踪策略失败。CRISP的核心思想是通过拟合平面原语到场景的点云重建,来恢复凸的、干净的、可用于仿真的几何体,该过程通过深度、法线和光流上的简单聚类流水线实现。为了重建交互过程中可能被遮挡的场景几何,CRISP利用了人体-场景接触建模(例如,使用人体姿势来重建椅子被遮挡的座位)。最后,通过强化学习驱动人形控制器,确保人体和场景重建在物理上是合理的。在以人为中心的视频基准测试(EMDB、PROX)上,CRISP将运动跟踪失败率从55.2%降低到6.9%,同时RL模拟吞吐量提高了43%。该方法还在真实视频(包括随意拍摄的视频、互联网视频,甚至是Sora生成的视频)上进行了验证。这证明了CRISP能够大规模生成物理上有效的人体运动和交互环境,极大地推进了机器人和AR/VR的real-to-sim应用。

🔬 方法详解

问题定义:现有的人体-场景联合重建方法要么依赖于大量数据先验,缺乏物理约束,导致重建结果不真实;要么重建的场景几何体存在噪声和伪影,使得后续的运动跟踪和交互模拟容易失败,尤其是在复杂的人机交互场景中。这些问题限制了real-to-sim技术在机器人和AR/VR领域的应用。

核心思路:CRISP的核心思路是通过将场景几何表示为一组凸的平面原语,从而简化场景的重建和模拟。这种表示方式不仅易于优化和渲染,而且能够提供更稳定和可靠的物理交互。此外,CRISP还利用人体与场景的接触信息来推断被遮挡的场景几何,进一步提高了重建的完整性和准确性。

技术框架:CRISP的整体流程包括以下几个主要阶段:1) 从单目视频中重建场景的点云;2) 基于深度、法线和光流对点云进行聚类,提取平面原语;3) 利用人体姿势和接触信息推断被遮挡的场景几何;4) 使用重建的人体和场景驱动人形控制器,并通过强化学习进行优化,确保物理合理性。整个框架是一个迭代的过程,通过不断优化人体姿势和场景几何,最终得到一个可用于仿真的环境。

关键创新:CRISP的关键创新在于将平面原语引入到人体-场景重建中,并结合人体-场景接触建模来提高重建的质量和完整性。与传统的基于体素或网格的重建方法相比,平面原语表示更加简洁和高效,并且更容易进行物理模拟。此外,利用人体-场景接触信息可以有效地解决遮挡问题,从而重建出更完整的场景几何。

关键设计:CRISP的关键设计包括:1) 使用基于深度、法线和光流的聚类算法来提取平面原语;2) 设计了一种基于人体姿势和接触信息的遮挡推理模型;3) 使用强化学习来优化人形控制器的运动,使其与重建的场景进行自然的交互。具体的参数设置和损失函数细节在论文中有详细描述,例如,强化学习的奖励函数需要仔细设计,以鼓励控制器生成自然的运动,并避免与场景发生碰撞。

📊 实验亮点

CRISP在EMDB和PROX数据集上将运动跟踪失败率从55.2%降低到6.9%,显著提高了运动跟踪的准确性。同时,CRISP还提高了强化学习模拟的吞吐量,加速了人形控制器的训练过程。此外,CRISP还在真实世界的视频(包括Sora生成的视频)上进行了验证,证明了其在各种场景下的泛化能力。

🎯 应用场景

CRISP具有广泛的应用前景,包括机器人仿真、AR/VR内容生成、虚拟环境训练等。它可以用于创建逼真的人机交互环境,帮助机器人学习如何在真实世界中执行任务。此外,CRISP还可以用于生成AR/VR内容,例如,将真实世界的人体运动和场景导入到虚拟环境中,从而提供更沉浸式的用户体验。该技术还有潜力应用于游戏开发、电影制作等领域。

📄 摘要(原文)

We introduce CRISP, a method that recovers simulatable human motion and scene geometry from monocular video. Prior work on joint human-scene reconstruction relies on data-driven priors and joint optimization with no physics in the loop, or recovers noisy geometry with artifacts that cause motion tracking policies with scene interactions to fail. In contrast, our key insight is to recover convex, clean, and simulation-ready geometry by fitting planar primitives to a point cloud reconstruction of the scene, via a simple clustering pipeline over depth, normals, and flow. To reconstruct scene geometry that might be occluded during interactions, we make use of human-scene contact modeling (e.g., we use human posture to reconstruct the occluded seat of a chair). Finally, we ensure that human and scene reconstructions are physically-plausible by using them to drive a humanoid controller via reinforcement learning. Our approach reduces motion tracking failure rates from 55.2\% to 6.9\% on human-centric video benchmarks (EMDB, PROX), while delivering a 43\% faster RL simulation throughput. We further validate it on in-the-wild videos including casually-captured videos, Internet videos, and even Sora-generated videos. This demonstrates CRISP's ability to generate physically-valid human motion and interaction environments at scale, greatly advancing real-to-sim applications for robotics and AR/VR.