HSImul3R: Physics-in-the-Loop Reconstruction of Simulation-Ready Human-Scene Interactions

📄 arXiv: 2603.15612v1 📥 PDF

作者: Yukang Cao, Haozhe Xie, Fangzhou Hong, Long Zhuo, Zhaoxi Chen, Liang Pan, Ziwei Liu

分类: cs.CV, cs.RO

发布日期: 2026-03-16

备注: https://yukangcao.github.io/HSImul3R/


💡 一句话要点

HSImul3R:提出物理引擎闭环的人-场景交互三维重建方法

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱五:交互与反应 (Interaction & Reaction) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人-场景交互 三维重建 物理仿真 强化学习 具身智能

📋 核心要点

  1. 现有方法重建的人-场景交互在视觉上合理,但违反物理约束,导致仿真环境不稳定。
  2. HSImul3R采用物理引擎闭环的双向优化,联合优化人体动力学和场景几何,保证物理合理性。
  3. 提出了新的HSIBench基准,实验证明HSImul3R重建结果稳定,可直接部署到人形机器人。

📝 摘要(中文)

本文提出HSImul3R,一个统一的框架,用于从稀疏视图图像和单目视频等非正式捕获中进行可用于仿真的三维人-场景交互(HSI)重建。现有方法存在感知-仿真差距:视觉上合理的重建通常违反物理约束,导致物理引擎不稳定,并在具身人工智能应用中失败。为了弥合这一差距,我们引入了一个物理驱动的双向优化流程,将物理模拟器视为主动监督器,以联合优化人体动力学和场景几何。在前向方向,我们采用场景目标强化学习,在运动保真度和接触稳定性的双重监督下优化人体运动。在反向方向,我们提出直接模拟奖励优化,利用模拟反馈(关于重力稳定性和交互成功)来优化场景几何。我们进一步提出了HSIBench,这是一个包含各种对象和交互场景的新基准。大量实验表明,HSImul3R产生了第一个稳定的、可用于仿真的HSI重建,可以直接部署到真实的人形机器人。

🔬 方法详解

问题定义:现有的人-场景交互(HSI)三维重建方法主要关注视觉上的逼真度,而忽略了物理约束。这导致重建结果在物理引擎中不稳定,无法直接应用于机器人仿真和具身智能等领域。现有方法的痛点在于感知和仿真之间存在差距,即视觉上合理的重建并不一定满足物理规律。

核心思路:HSImul3R的核心思路是将物理模拟器纳入重建流程中,作为一个主动的监督器,通过物理引擎的反馈来指导人体运动和场景几何的优化。通过这种物理驱动的双向优化,确保重建结果既具有视觉上的合理性,又满足物理上的稳定性。

技术框架:HSImul3R的整体框架是一个双向优化流程。在前向方向,使用场景目标强化学习(Scene-targeted Reinforcement Learning)优化人体运动,同时考虑运动保真度和接触稳定性。在反向方向,使用直接模拟奖励优化(Direct Simulation Reward Optimization)优化场景几何,利用重力稳定性和交互成功等模拟反馈作为奖励信号。整个框架通过迭代优化,最终得到一个稳定且可用于仿真的HSI重建结果。

关键创新:HSImul3R最重要的创新点在于将物理引擎引入到人-场景交互的重建流程中,形成一个闭环的优化系统。与现有方法不同,HSImul3R不是仅仅依赖于视觉信息进行重建,而是同时考虑了物理约束,从而保证了重建结果的物理合理性。这种物理驱动的重建方法是现有方法所不具备的。

关键设计:在前向优化中,使用了强化学习来优化人体运动,奖励函数包括运动保真度和接触稳定性两部分。在反向优化中,使用了直接模拟奖励优化,通过模拟重力稳定性和交互成功来评估场景几何的质量,并将其作为优化目标。此外,还提出了新的HSIBench基准,用于评估不同方法的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

HSImul3R在新的HSIBench基准上进行了评估,实验结果表明,该方法能够生成稳定的、可用于仿真的HSI重建结果。与现有方法相比,HSImul3R在物理稳定性方面有显著提升,可以直接部署到真实的人形机器人上。具体性能数据未知,但论文强调了其在物理合理性方面的优势。

🎯 应用场景

HSImul3R重建的稳定、可用于仿真的HSI模型,可广泛应用于机器人仿真、具身智能、虚拟现实和游戏等领域。例如,可以用于训练机器人进行复杂的人机协作任务,也可以用于创建更逼真的虚拟环境,提升用户体验。该研究为构建更智能、更安全的机器人系统奠定了基础。

📄 摘要(原文)

We present HSImul3R, a unified framework for simulation-ready 3D reconstruction of human-scene interactions (HSI) from casual captures, including sparse-view images and monocular videos. Existing methods suffer from a perception-simulation gap: visually plausible reconstructions often violate physical constraints, leading to instability in physics engines and failure in embodied AI applications. To bridge this gap, we introduce a physically-grounded bi-directional optimization pipeline that treats the physics simulator as an active supervisor to jointly refine human dynamics and scene geometry. In the forward direction, we employ Scene-targeted Reinforcement Learning to optimize human motion under dual supervision of motion fidelity and contact stability. In the reverse direction, we propose Direct Simulation Reward Optimization, which leverages simulation feedback on gravitational stability and interaction success to refine scene geometry. We further present HSIBench, a new benchmark with diverse objects and interaction scenarios. Extensive experiments demonstrate that HSImul3R produces the first stable, simulation-ready HSI reconstructions and can be directly deployed to real-world humanoid robots.