Real2Sim in HOI: Toward Physically Plausible HOI Reconstruction from Monocular Videos
作者: Yubo Zhao, Yujin Chai, Yunao Dong, Chengfeng Zhao, Zijiao Zeng, Yuan Liu, Chi-Keung Tang
分类: cs.CV
发布日期: 2026-05-14
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
HA-HOI:从单目视频重建物理可信的人-物交互动画
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱四:生成式动作 (Generative Motion) 支柱五:交互与反应 (Interaction & Reaction) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 人-物交互 HOI重建 物理模拟 单目视频 运动捕捉
📋 核心要点
- 现有单目HOI重建方法难以保证重建结果的物理合理性,导致模拟时出现接触不稳定等问题。
- HA-HOI框架采用“人优先,物跟随”策略,以人的运动为基准,优化物体重建,保证交互的物理合理性。
- 实验表明,HA-HOI在人-物对齐、接触一致性和时间稳定性方面均优于现有方法,并提升了模拟的稳定性。
📝 摘要(中文)
本文提出HA-HOI框架,旨在从单目视频中重建物理上合理的4D人-物交互(HOI)动画,以解决现有方法在HOI重建中存在的视觉伪影、接触不稳定、功能性操作缺失以及物理合理性不足等问题。HA-HOI采用“人优先,物跟随”的策略,将人的运动作为交互的锚点,并相对于人的动作重建、对齐和优化物体。生成的运动轨迹被投影到基于物理的人形-物体模拟中,作为稳定物理展开的引导。实验结果表明,HA-HOI在人-物对齐、接触一致性、时间稳定性和模拟准备度方面优于现有的单目HOI重建方法。该工作通过从视觉可信的轨迹恢复转向物理基础的交互动画,为将通用单目HOI视频转化为人形-物体行为的可扩展演示迈出了一步。
🔬 方法详解
问题定义:现有方法在从单目视频中重建4D人-物交互时,通常将人和物体视为独立的实体,导致重建结果在3D空间中存在歧义,无法保证重建动画的物理合理性,例如接触不稳定、物体穿透等问题。这些问题使得重建的动画难以直接用于物理模拟和机器人控制等应用。
核心思路:HA-HOI的核心思路是采用“人优先,物跟随”的策略。首先,精确地重建人的运动轨迹,将其作为交互的锚点。然后,相对于人的动作,重建、对齐和优化物体的运动轨迹。这种方法能够更好地保持人与物体之间的相对关系,从而提高重建动画的物理合理性。
技术框架:HA-HOI框架主要包含以下几个阶段:1) 人体运动重建:利用现有的单目人体姿态估计方法,重建人体骨骼的运动轨迹。2) 物体重建与对齐:根据人体运动轨迹,初始化物体的位置和姿态,并使用优化算法将物体与人体运动对齐。3) 物理合理性优化:利用物理引擎对重建的动画进行优化,例如添加接触约束、防止物体穿透等,以提高动画的物理合理性。4) 物理模拟:将重建的动画作为参考轨迹,驱动物理引擎进行模拟,验证重建动画的物理合理性和稳定性。
关键创新:HA-HOI的关键创新在于其“人优先,物跟随”的重建策略。与现有方法将人和物体视为独立实体不同,HA-HOI将人的运动作为交互的锚点,从而更好地保持人与物体之间的相对关系,提高重建动画的物理合理性。此外,HA-HOI还利用物理引擎对重建的动画进行优化,进一步提高了动画的物理合理性和稳定性。
关键设计:在物体重建与对齐阶段,HA-HOI使用了一种基于优化的方法,通过最小化物体与人体之间的距离、角度等约束,将物体与人体运动对齐。在物理合理性优化阶段,HA-HOI使用了一种基于物理引擎的优化方法,通过添加接触约束、防止物体穿透等约束,提高动画的物理合理性。具体的损失函数和参数设置在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
HA-HOI在benchmark和真实场景视频上进行了评估,实验结果表明,HA-HOI在人-物对齐、接触一致性、时间稳定性和模拟准备度方面均优于现有的单目HOI重建方法。具体而言,HA-HOI在接触一致性方面取得了显著提升,有效减少了物体穿透等不合理的现象。此外,HA-HOI重建的动画能够更好地驱动物理引擎进行模拟,提高了模拟的稳定性。
🎯 应用场景
HA-HOI的研究成果可应用于机器人控制、虚拟现实、游戏开发等领域。例如,可以将HA-HOI用于生成机器人操作的训练数据,提高机器人的操作技能。在虚拟现实和游戏开发中,可以利用HA-HOI生成更加逼真的人-物交互动画,提升用户体验。此外,该技术还有潜力应用于康复训练等领域,通过分析和重建患者的动作,辅助医生进行诊断和治疗。
📄 摘要(原文)
Recovering 4D human-object interaction (HOI) from monocular video is a key step toward scalable 3D content creation, embodied AI, and simulation-based learning. Recent methods can reconstruct temporally coherent human and object trajectories, but these trajectories often remain visual artifacts while failing to preserve stable contact, functional manipulation, or physical plausibility when used as reference motions for humanoid-object simulation. This reveals a fundamental interaction gap: HOI reconstruction should not stop at tracking a human and an object, but should recover the relation that makes their motion a coherent interaction. We introduce $\textbf{HA-HOI}$, a framework for reconstructing physically plausible 4D HOI animation from in-the-wild monocular videos. Instead of treating the human and object as independent entities in an ambiguous monocular 3D space, we propose a $\textit{human-first, object-follow}$ formulation. The human motion is recovered as the interaction anchor, and the object is reconstructed, aligned, and refined relative to the human action. The resulting kinematic trajectory is then projected into a physics-based humanoid-object simulation, where it acts as a teacher trajectory for stable physical rollout. Across benchmark and in-the-wild videos, $\textbf{HA-HOI}$ improves human-object alignment, contact consistency, temporal stability, and simulation readiness over prior monocular HOI reconstruction methods. By moving beyond visually plausible trajectory recovery toward physically grounded interaction animation, our work takes a step toward turning general monocular HOI videos into scalable demonstrations for humanoid-object behavior. Project page: https://knoxzhao.github.io/real2sim_in_HOI/