PhyScene3D: Physically Consistent Interactive 3D Tabletop Scene Generation

📄 arXiv: 2606.01649v1 📥 PDF

作者: Weixing Chen, Zhuoqian Feng, Yang Liu, Yexin Zhang, Yifan Wen, Yinghong Liao, Weichao Qiu, Guanbin Li, Liang Lin

分类: cs.CV

发布日期: 2026-06-01

备注: 23 pages, 5 figures, accepted by ICML 2026


💡 一句话要点

PhyScene3D:提出物理一致的交互式3D桌面场景生成框架

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D场景生成 物理一致性 机器人学习 人机协同 拓扑推理 符号距离场 测试时优化

📋 核心要点

  1. 现有方法在3D桌面场景生成中存在误差传播和过拟合问题,难以保证生成场景的物理一致性。
  2. PhyScene3D将场景生成建模成人机协同的构造过程,利用认知拓扑推理链和物理感知去噪对齐来提升生成质量。
  3. 实验结果表明,PhyScene3D在语义准确性和物理有效性上均超越现有技术,显著降低了场景碰撞率。

📝 摘要(中文)

本文针对交互式通用机器人学习中物理一致的3D桌面场景生成问题,提出PhyScene3D框架。该框架将场景生成重构为人机协同的构造过程,利用认知拓扑推理链(CTRC)将场景合成分解为顺序的、锚点条件化的过程,并采用基于3D AABB的放置方案,施加了强的结构归纳偏置。为了解决不完善的监督和物理不可行性问题,引入了物理感知去噪对齐(PADA),它集成了可微的符号距离场(SDF)与测试时优化(TTO),以将生成的场景投影到物理可行的流形上,同时保留语义意图。实验表明,PhyScene3D在语义准确性和物理有效性方面均优于现有方法,相对于人工标注的训练数据,场景级碰撞率降低了40%。

🔬 方法详解

问题定义:论文旨在解决交互式机器人学习中,生成物理上合理且可交互的3D桌面场景的问题。现有方法,如解耦的符号求解器和端到端回归模型,容易受到误差累积或过拟合噪声数据的困扰,导致生成的场景存在大量的物理违规,难以直接应用于物理模拟器中。

核心思路:论文的核心思路是将3D场景生成过程模拟成人为构造的过程,通过逐步放置物体并进行物理约束优化,确保生成的场景在语义和物理上都是合理的。这种“人机协同”的方式能够有效利用人类的先验知识,并减少对大量噪声数据的依赖。

技术框架:PhyScene3D框架主要包含两个核心模块:认知拓扑推理链(CTRC)和物理感知去噪对齐(PADA)。CTRC负责场景的初始生成,将场景合成分解为一系列顺序的、以锚点为条件的放置步骤,并使用3D AABB来约束物体的放置。PADA模块则负责对生成的场景进行物理优化,通过可微的SDF和TTO,将场景投影到物理可行的流形上。

关键创新:论文的关键创新在于将场景生成问题转化为一个构造性的过程,并引入了物理感知的优化方法。CTRC通过模拟人类的放置行为,有效地利用了场景的结构信息。PADA则通过可微的物理模拟,实现了对生成场景的物理约束,从而显著提高了场景的物理合理性。

关键设计:CTRC使用3D AABB作为物体的表示,并设计了锚点机制来引导物体的放置。PADA模块使用可微的SDF来计算物体之间的距离,并使用TTO来优化物体的位姿,以减少碰撞和提高稳定性。损失函数包括语义损失、碰撞损失和稳定性损失,用于指导模型的训练和优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PhyScene3D在语义准确性和物理有效性方面均优于现有方法。与人工标注的训练数据相比,PhyScene3D生成的场景的碰撞率降低了40%。在各项指标上,PhyScene3D都取得了显著的提升,证明了其有效性。

🎯 应用场景

PhyScene3D可应用于机器人操作、强化学习、虚拟环境生成等领域。生成的物理一致的3D场景能够为机器人提供更真实的训练环境,提高机器人在真实世界中的泛化能力。此外,该技术还可用于创建逼真的虚拟环境,用于游戏开发、虚拟现实等应用。

📄 摘要(原文)

Generating physically consistent 3D tabletop scenes is a fundamental yet underexplored problem for interactive and generalist robotic learning. The challenge stems from dense object hierarchies and irregular affordances. Here, an interactive scene denotes a physically valid, collision-free environment directly loadable into physics simulators. Existing methods, ranging from decoupled symbolic solvers to end-to-end regression models, often suffer from error propagation or overfitting to noisy supervision containing widespread physical violations. To address these limitations, we introduce PhyScene3D, a framework that reformulates generation as a Human-Mimetic Constructive Process. The proposed Cognitive Topological Reasoning Chain (CTRC) factorizes scene synthesis into a sequential, anchor-conditioned process. It employs a 3D AABB-based placement scheme that imposes a strong structural inductive bias. To address imperfect supervision and physical infeasibility, we introduce Physics-Aware Denoising Alignment (PADA). It integrates a differentiable Signed Distance Field (SDF) with Test-Time Optimization (TTO) to project generated scenes onto a physics-feasible manifold while preserving semantic intent. Experiments demonstrate that PhyScene3D outperforms state-of-the-art approaches in both semantic accuracy and physical validity, achieving a 40% reduction in scene-wise collision rate relative to the human-annotated training data.