PhyScene3D: Physically Consistent Interactive 3D Tabletop Scene Generation

作者: Weixing Chen, Zhuoqian Feng, Yang Liu, Yexin Zhang, Yifan Wen, Yinghong Liao, Weichao Qiu, Guanbin Li, Liang Lin

分类: cs.CV

发布日期: 2026-06-01

备注: 23 pages, 5 figures, accepted by ICML 2026

💡 一句话要点

PhyScene3D：提出物理一致的交互式3D桌面场景生成框架

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 3D场景生成 物理一致性 机器人学习 人机协同 拓扑推理 符号距离场 测试时优化

📋 核心要点

现有方法在3D桌面场景生成中存在误差传播和过拟合问题，难以保证生成场景的物理一致性。
PhyScene3D将场景生成建模成人机协同的构造过程，利用认知拓扑推理链和物理感知去噪对齐来提升生成质量。
实验结果表明，PhyScene3D在语义准确性和物理有效性上均超越现有技术，显著降低了场景碰撞率。

📝 摘要（中文）

本文针对交互式通用机器人学习中物理一致的3D桌面场景生成问题，提出PhyScene3D框架。该框架将场景生成重构为人机协同的构造过程，利用认知拓扑推理链（CTRC）将场景合成分解为顺序的、锚点条件化的过程，并采用基于3D AABB的放置方案，施加了强的结构归纳偏置。为了解决不完善的监督和物理不可行性问题，引入了物理感知去噪对齐（PADA），它集成了可微的符号距离场（SDF）与测试时优化（TTO），以将生成的场景投影到物理可行的流形上，同时保留语义意图。实验表明，PhyScene3D在语义准确性和物理有效性方面均优于现有方法，相对于人工标注的训练数据，场景级碰撞率降低了40%。

🔬 方法详解

问题定义：论文旨在解决交互式机器人学习中，生成物理上合理且可交互的3D桌面场景的问题。现有方法，如解耦的符号求解器和端到端回归模型，容易受到误差累积或过拟合噪声数据的困扰，导致生成的场景存在大量的物理违规，难以直接应用于物理模拟器中。

核心思路：论文的核心思路是将3D场景生成过程模拟成人为构造的过程，通过逐步放置物体并进行物理约束优化，确保生成的场景在语义和物理上都是合理的。这种“人机协同”的方式能够有效利用人类的先验知识，并减少对大量噪声数据的依赖。

技术框架：PhyScene3D框架主要包含两个核心模块：认知拓扑推理链（CTRC）和物理感知去噪对齐（PADA）。CTRC负责场景的初始生成，将场景合成分解为一系列顺序的、以锚点为条件的放置步骤，并使用3D AABB来约束物体的放置。PADA模块则负责对生成的场景进行物理优化，通过可微的SDF和TTO，将场景投影到物理可行的流形上。

关键创新：论文的关键创新在于将场景生成问题转化为一个构造性的过程，并引入了物理感知的优化方法。CTRC通过模拟人类的放置行为，有效地利用了场景的结构信息。PADA则通过可微的物理模拟，实现了对生成场景的物理约束，从而显著提高了场景的物理合理性。

关键设计：CTRC使用3D AABB作为物体的表示，并设计了锚点机制来引导物体的放置。PADA模块使用可微的SDF来计算物体之间的距离，并使用TTO来优化物体的位姿，以减少碰撞和提高稳定性。损失函数包括语义损失、碰撞损失和稳定性损失，用于指导模型的训练和优化。

🖼️ 关键图片

📊 实验亮点

实验结果表明，PhyScene3D在语义准确性和物理有效性方面均优于现有方法。与人工标注的训练数据相比，PhyScene3D生成的场景的碰撞率降低了40%。在各项指标上，PhyScene3D都取得了显著的提升，证明了其有效性。

🎯 应用场景

PhyScene3D可应用于机器人操作、强化学习、虚拟环境生成等领域。生成的物理一致的3D场景能够为机器人提供更真实的训练环境，提高机器人在真实世界中的泛化能力。此外，该技术还可用于创建逼真的虚拟环境，用于游戏开发、虚拟现实等应用。

📄 摘要（原文）

Generating physically consistent 3D tabletop scenes is a fundamental yet underexplored problem for interactive and generalist robotic learning. The challenge stems from dense object hierarchies and irregular affordances. Here, an interactive scene denotes a physically valid, collision-free environment directly loadable into physics simulators. Existing methods, ranging from decoupled symbolic solvers to end-to-end regression models, often suffer from error propagation or overfitting to noisy supervision containing widespread physical violations. To address these limitations, we introduce PhyScene3D, a framework that reformulates generation as a Human-Mimetic Constructive Process. The proposed Cognitive Topological Reasoning Chain (CTRC) factorizes scene synthesis into a sequential, anchor-conditioned process. It employs a 3D AABB-based placement scheme that imposes a strong structural inductive bias. To address imperfect supervision and physical infeasibility, we introduce Physics-Aware Denoising Alignment (PADA). It integrates a differentiable Signed Distance Field (SDF) with Test-Time Optimization (TTO) to project generated scenes onto a physics-feasible manifold while preserving semantic intent. Experiments demonstrate that PhyScene3D outperforms state-of-the-art approaches in both semantic accuracy and physical validity, achieving a 40% reduction in scene-wise collision rate relative to the human-annotated training data.

PhyScene3D: Physically Consistent Interactive 3D Tabletop Scene Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理