PhySIC: Physically Plausible 3D Human-Scene Interaction and Contact from a Single Image

📄 arXiv: 2510.11649v1 📥 PDF

作者: Pradyumna Yalandur Muralidhar, Yuxuan Xue, Xianghui Xie, Margaret Kostyrko, Gerard Pons-Moll

分类: cs.CV

发布日期: 2025-10-13

备注: Accepted to ACM SIGGraphAsia 2025. Project website: https://yuxuan-xue.com/physic

DOI: 10.1145/3757377.3763862


💡 一句话要点

PhySIC:从单张图像重建物理上合理的3D人-场景交互与接触

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱四:生成式动作 (Generative Motion) 支柱五:交互与反应 (Interaction & Reaction) 支柱六:视频提取与匹配 (Video Extraction)

关键词: 人体姿态估计 场景重建 人-场景交互 单目视觉 物理先验

📋 核心要点

  1. 现有方法在单图重建中面临深度歧义、遮挡和物理不一致接触等挑战,限制了其在VR、机器人等领域的应用。
  2. PhySIC通过遮挡感知修复、度量融合、接触先验等手段,从单张图像中重建物理上合理的人-场景交互。
  3. 实验表明,PhySIC在场景重建误差、人体姿态估计和接触预测等方面均优于现有单图方法,效果显著。

📝 摘要(中文)

PhySIC是一个用于重建物理上合理的人-场景交互和接触的框架,它从单张RGB图像中恢复度量一致的SMPL-X人体网格、稠密场景表面以及顶点级别的接触图,所有这些都在一个共享的坐标系中。该方法首先从粗略的单目深度和人体姿态估计开始,然后执行遮挡感知的图像修复,并将可见深度与未缩放的几何体融合,以构建鲁棒的度量支架,并合成缺失的支撑表面(如地板)。通过置信度加权的优化,联合强制执行深度对齐、接触先验、避免相互穿透和2D重投影一致性,从而细化人体姿态、相机参数和全局尺度。显式的遮挡掩码可以保护不可见区域免受不合理的配置影响。PhySIC是高效的,联合人体-场景优化仅需9秒,端到端处理时间不到27秒。它可以自然地处理多个人物,从而能够重建各种交互。实验结果表明,PhySIC优于单图像基线,将平均每顶点场景误差从641毫米降低到227毫米,PA-MPJPE减半至42毫米,并将接触F1分数从0.09提高到0.51。定性结果显示了逼真的脚-地板交互、自然的坐姿以及对严重遮挡家具的合理重建。通过将单张图像转换为物理上合理的三维人-场景对,PhySIC推动了可扩展的三维场景理解。

🔬 方法详解

问题定义:论文旨在解决从单张RGB图像中重建物理上合理的3D人体和场景交互的问题。现有方法通常难以处理深度模糊性、遮挡以及人体与场景之间物理上不一致的接触关系,导致重建结果不真实,影响了其在虚拟现实、机器人等领域的应用。

核心思路:论文的核心思路是利用物理先验知识和几何约束来解决单目三维重建中的不确定性。通过融合可见深度信息、估计缺失几何结构、并优化人体姿态和场景参数,确保重建结果在深度、接触和物理上都是合理的。这种方法能够有效减少深度歧义,处理遮挡,并生成逼真的人体-场景交互。

技术框架:PhySIC框架主要包含以下几个阶段:1) 粗略估计:从单张图像中估计粗略的单目深度图和人体姿态;2) 遮挡感知修复:对深度图进行遮挡感知的修复,填补缺失的深度信息;3) 度量融合:将可见深度信息与未缩放的场景几何体融合,构建度量一致的场景支架;4) 场景补全:合成缺失的支撑表面,如地板;5) 联合优化:通过置信度加权的优化,联合优化人体姿态、相机参数和全局尺度,同时强制执行深度对齐、接触先验、避免相互穿透和2D重投影一致性。

关键创新:PhySIC的关键创新在于:1) 提出了一种基于物理先验的联合优化框架,能够同时优化人体姿态、场景几何和相机参数,确保重建结果的物理合理性;2) 引入了遮挡感知的修复方法,能够有效处理遮挡问题,提高重建的完整性;3) 利用接触先验知识,约束人体与场景之间的交互,生成更逼真的接触关系。

关键设计:在联合优化阶段,论文设计了多个损失函数,包括:1) 深度对齐损失,用于约束重建的深度与估计的深度图一致;2) 接触先验损失,用于鼓励人体与场景之间产生合理的接触;3) 避免相互穿透损失,用于防止人体与场景之间发生穿透;4) 2D重投影一致性损失,用于约束重建的人体姿态与图像中的人体姿态一致。这些损失函数通过置信度加权的方式进行组合,以实现最佳的优化效果。

📊 实验亮点

实验结果表明,PhySIC在单图像人体-场景重建任务上取得了显著的性能提升。具体而言,与现有方法相比,PhySIC将平均每顶点场景误差从641毫米降低到227毫米,PA-MPJPE减半至42毫米,并将接触F1分数从0.09提高到0.51。这些数据表明,PhySIC能够更准确地重建场景几何、人体姿态和人体-场景接触。

🎯 应用场景

该研究成果可广泛应用于虚拟现实、增强现实、机器人、游戏开发等领域。例如,在VR/AR中,可以利用该方法从单张图像中重建逼真的人体-场景交互,提升用户体验。在机器人领域,可以帮助机器人理解周围环境,并与人类进行自然的交互。此外,该方法还可以用于三维内容创作,例如生成虚拟人物和场景。

📄 摘要(原文)

Reconstructing metrically accurate humans and their surrounding scenes from a single image is crucial for virtual reality, robotics, and comprehensive 3D scene understanding. However, existing methods struggle with depth ambiguity, occlusions, and physically inconsistent contacts. To address these challenges, we introduce PhySIC, a framework for physically plausible Human-Scene Interaction and Contact reconstruction. PhySIC recovers metrically consistent SMPL-X human meshes, dense scene surfaces, and vertex-level contact maps within a shared coordinate frame from a single RGB image. Starting from coarse monocular depth and body estimates, PhySIC performs occlusion-aware inpainting, fuses visible depth with unscaled geometry for a robust metric scaffold, and synthesizes missing support surfaces like floors. A confidence-weighted optimization refines body pose, camera parameters, and global scale by jointly enforcing depth alignment, contact priors, interpenetration avoidance, and 2D reprojection consistency. Explicit occlusion masking safeguards invisible regions against implausible configurations. PhySIC is efficient, requiring only 9 seconds for joint human-scene optimization and under 27 seconds end-to-end. It naturally handles multiple humans, enabling reconstruction of diverse interactions. Empirically, PhySIC outperforms single-image baselines, reducing mean per-vertex scene error from 641 mm to 227 mm, halving PA-MPJPE to 42 mm, and improving contact F1 from 0.09 to 0.51. Qualitative results show realistic foot-floor interactions, natural seating, and plausible reconstructions of heavily occluded furniture. By converting a single image into a physically plausible 3D human-scene pair, PhySIC advances scalable 3D scene understanding. Our implementation is publicly available at https://yuxuan-xue.com/physic.