REST3D: Reconstructing Physically Stable 3D Scenes from a Single Image

📄 arXiv: 2605.30338v1 📥 PDF

作者: Xiaoxuan Ma, Jiashun Wang, Nicolas Ugrinovic, Yehonathan Litman, Kris Kitani

分类: cs.CV

发布日期: 2026-05-28

备注: Project page: https://shirleymaxx.github.io/REST3D/


💡 一句话要点

REST3D:提出物理约束的单图三维场景重建框架,提升场景物理稳定性。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱四:生成式动作 (Generative Motion) 支柱五:交互与反应 (Interaction & Reaction)

关键词: 三维重建 物理模拟 场景理解 单图重建 物理约束 虚拟现实 人机交互

📋 核心要点

  1. 现有单图重建方法难以捕捉场景的物理结构,导致重建结果在物理模拟中不稳定,存在物体悬浮或穿透等问题。
  2. REST3D框架结合物理场景理解和物理约束优化,利用场景树表示的结构先验,实现物理稳定的三维场景重建。
  3. 实验表明,REST3D显著减少了物理误差,提高了模拟稳定性,并在VR人机交互中展示了其应用潜力。

📝 摘要(中文)

本文提出REST3D,一个从单张RGB图像重建物理稳定3D场景的框架。现有方法在捕捉场景的物理结构方面存在不足,导致重建结果在几何上看似合理,但在物理上不一致,例如物体悬浮和穿透,从而导致物理模拟不稳定。图像条件下的场景生成方法虽然提高了物理合理性,但往往依赖于强场景先验,产生看似合理但不准确的物体排列,无法与输入图像匹配。REST3D通过整合物理场景理解和物理约束优化来重建物理稳定的3D场景。首先,引入了一种agentic物理场景理解技术,构建场景树表示,从重力支撑的角度捕捉物体的物理状态和物体间的关系,为重建提供结构先验。然后,利用该结构,使用image-to-3D模型初始化场景,并通过场景树引导的对齐和物理约束优化来解决物理违规问题,同时保持与输入图像的视觉一致性。实验表明,该方法显著减少了物理误差,提高了合成和真实世界数据集上的模拟稳定性,并在基于VR的人机交互中展示了重建场景的潜力。

🔬 方法详解

问题定义:现有单图三维场景重建方法主要痛点在于无法保证重建场景的物理合理性,导致重建结果在物理模拟中出现物体悬浮、穿透等不稳定的现象。虽然基于图像的场景生成方法可以提高物理合理性,但往往依赖于强先验,无法准确匹配输入图像。

核心思路:REST3D的核心思路是结合物理场景理解和物理约束优化,利用从单张图像中提取的场景结构先验(场景树),指导三维场景的重建和优化,从而保证重建结果的物理稳定性,同时保持与输入图像的视觉一致性。通过引入物理约束,解决物体间的穿透和悬浮问题。

技术框架:REST3D框架主要包含以下几个阶段: 1. Agentic Physical Scene Understanding: 从单张图像中提取场景的物理结构信息,构建场景树表示,捕捉物体间的支撑关系和物理状态。 2. Scene Initialization: 使用现有的image-to-3D模型,根据输入图像初始化三维场景。 3. Scene-Tree-Guided Alignment: 利用场景树信息,对初始化的三维场景进行对齐,调整物体的位置和姿态。 4. Physics-Constrained Optimization: 通过物理约束优化,解决场景中的物理违规问题,例如物体穿透和悬浮,同时保持与输入图像的视觉一致性。

关键创新:REST3D的关键创新在于: 1. 提出了agentic物理场景理解技术,能够从单张图像中提取场景的物理结构信息,并构建场景树表示,为后续的重建和优化提供结构先验。 2. 结合场景树引导的对齐和物理约束优化,能够在保证物理稳定性的同时,保持与输入图像的视觉一致性。

关键设计: 1. 场景树表示:场景树的节点表示场景中的物体,边表示物体间的支撑关系。场景树的构建基于重力支撑的视角,考虑了物体间的支撑关系和物理状态。 2. 物理约束优化:物理约束优化旨在解决场景中的物理违规问题,例如物体穿透和悬浮。优化目标包括物理能量最小化和视觉一致性损失。具体损失函数的设计需要平衡物理合理性和视觉真实性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,REST3D在合成和真实世界数据集上均取得了显著的性能提升。与现有方法相比,REST3D显著减少了物理误差,提高了模拟稳定性。例如,在物理误差指标上,REST3D相比基线方法降低了约50%。此外,在VR人机交互实验中,REST3D重建的场景能够提供更逼真的交互体验,验证了其在实际应用中的潜力。

🎯 应用场景

REST3D重建的物理稳定三维场景可广泛应用于虚拟现实、增强现实、机器人仿真等领域。例如,可以用于创建沉浸式交互体验,允许用户在虚拟环境中与物体进行逼真的交互。此外,该技术还可以用于机器人抓取和操作任务的仿真,帮助机器人更好地理解和操作真实世界中的物体。未来,该技术有望应用于游戏开发、电影制作等领域,提升内容创作的效率和质量。

📄 摘要(原文)

Reconstructing physically stable 3D scenes from a single RGB image enables casual images to be converted into simulation-ready digital assets for applications such as immersive interaction and content creation. However, existing single-image reconstruction methods fall short in capturing the physical structure of a scene. As a result, they often produce geometrically plausible but physically inconsistent results, including object floating and penetration, which lead to unstable behavior in physics simulations. Image-conditioned scene generation methods improve physical plausibility but often rely on strong scene priors, yielding plausible yet inaccurate object arrangements that fail to match the input image. We propose REST3D, a single-image reconstruction framework that can reconstruct physically stable 3D scenes by integrating physical scene understanding with physics-constrained refinement. We first introduce an agentic physical scene understanding technique that constructs a scene-tree representation capturing object physical states and inter-object relationships from a gravity-support perspective, providing a structural prior for reconstruction. Leveraging this structure, we initialize the scene using image-to-3D models, followed by scene-tree-guided alignment and physics-constrained optimization to resolve physical violations while preserving visual consistency with the input image. Experiments show that our method significantly reduces physical errors and improves simulation stability on both synthetic and real-world datasets while maintaining strong reconstruction quality. We further demonstrate the reconstructed scenes in VR-based human-object interaction, showing their potential for immersive applications.