STABLE: Simulation-Ready Tabletop Layout Generation via a Semantics-Physics Dual System
作者: Zhen Luo, Yixuan Yang, Xudong Xu, Jinkun Hao, Zhaoyang Lyu, Feng Zheng, Jiangmiao Pang, Yanwei Fu
分类: cs.CV, cs.RO
发布日期: 2026-05-15
备注: ICML 2026
💡 一句话要点
STABLE:基于语义-物理双系统的可用于仿真的桌面布局生成
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 桌面场景生成 仿真环境 语义推理 物理模拟 大型语言模型 机器人学习 物理合理性
📋 核心要点
- 现有方法依赖LLM生成桌面场景布局,但LLM在3D空间推理方面存在局限,易导致物体碰撞或悬浮等物理不合理现象。
- STABLE提出语义-物理双系统,包含语义推理器和物理校正器,交替迭代优化布局,确保语义对齐和物理合理性。
- 实验结果表明,STABLE能够生成符合任务指令且物理有效的桌面场景,显著优于现有方法。
📝 摘要(中文)
本文提出STABLE,一个专为生成可用于仿真的桌面场景而设计的语义-物理双系统。现有的任务到场景生成方法依赖于大型语言模型(LLM)预测场景布局,但由于LLM在3D空间推理方面的局限性,不可避免地导致物体碰撞或悬浮。STABLE包含两个互补的模块:(i)语义推理器,一个在结构化桌面场景数据集上微调的LLM,用于从输入任务指令生成粗略布局;(ii)物理校正器,一个具有物理感知的基于流的去噪模型,输出姿势更新以细化布局,确保场景的物理合理性,同时保持与任务指令的语义对齐。STABLE采用渐进式生成范例:通过在语义推理器和物理校正器之间交替,它逐步地从任务关键对象扩展到背景对象。实验表明,STABLE成功生成了严格符合任务指令的可用于仿真的桌面场景,并显著提高了场景的物理有效性。
🔬 方法详解
问题定义:论文旨在解决从任务指令生成可用于仿真的桌面场景布局的问题。现有方法主要依赖大型语言模型(LLM),但LLM在3D空间推理能力上的不足导致生成的场景经常出现物体碰撞、悬浮等物理不合理现象,无法直接用于仿真。
核心思路:论文的核心思路是结合语义推理和物理模拟,设计一个双系统框架。语义推理器负责根据任务指令生成粗略的场景布局,保证语义上的正确性;物理校正器负责对布局进行物理上的优化,消除碰撞和悬浮等问题,保证物理上的合理性。通过两个模块的迭代优化,最终生成既符合任务指令又具有物理可行性的场景。
技术框架:STABLE框架包含两个主要模块:语义推理器和物理校正器。整体流程如下:1. 输入任务指令;2. 语义推理器生成初始场景布局;3. 物理校正器对布局进行物理优化;4. 语义推理器根据优化后的布局添加更多背景物体;5. 重复步骤3和4,直到场景完整;6. 输出最终的仿真场景。
关键创新:论文的关键创新在于提出了语义-物理双系统,将LLM的语义理解能力和物理模拟的约束能力结合起来。与完全依赖LLM的方法相比,STABLE能够生成更符合物理规律的场景。此外,论文还提出了渐进式生成范例,从任务关键物体逐步扩展到背景物体,提高了生成效率和质量。
关键设计:语义推理器是一个在结构化桌面场景数据集上微调的LLM,用于生成粗略布局。物理校正器是一个基于流的去噪模型,通过预测姿势更新来优化布局。损失函数包括语义对齐损失和物理合理性损失。语义对齐损失用于保证优化后的布局与任务指令的语义一致性。物理合理性损失用于惩罚物体碰撞和悬浮等物理不合理现象。
🖼️ 关键图片
📊 实验亮点
实验结果表明,STABLE能够显著提高生成场景的物理有效性。与现有方法相比,STABLE生成的场景中物体碰撞和悬浮的比例显著降低。此外,STABLE生成的场景更符合任务指令,能够更好地满足用户的需求。定量指标和定性结果均验证了STABLE的有效性。
🎯 应用场景
该研究成果可应用于机器人仿真、增强现实、游戏开发等领域。例如,可以用于生成各种复杂的仿真环境,帮助机器人学习如何在真实世界中执行任务。在增强现实中,可以根据用户的指令生成逼真的虚拟场景,提升用户体验。在游戏开发中,可以自动生成游戏场景,降低开发成本。
📄 摘要(原文)
Generating simulation-ready tabletop scenes from task instructions is an intriguing and promising research direction in the field of Embodied AI. However, existing task-to-scene generation methods rely exclusively on large language models (LLMs) to predict scene layouts, inevitably yielding object collisions or floating due to LLMs' inherent limitations in 3D spatial reasoning. In this paper, we present STABLE, a semantics-physics dual-system tailored for simulation-ready tabletop scene generation. STABLE consists of two complementary modules: (i) a Semantic Reasoner, a fine-tuned LLM trained on a structured tabletop scene dataset to generate coarse layouts from input task instructions, and (ii) a Physics Corrector, a physics-aware flow-based denoising model that outputs pose updates to refine layouts, which ensures the physical plausibility of scenes while preserves semantic alignment with task instructions. STABLE adopts a progressive generation paradigm: by alternating between the Semantic Reasoner and Physics Corrector, it incrementally expands the scene from task-critical objects to background objects. Experiments demonstrate that STABLE successfully generates simulation-ready tabletop scenes that strictly conform to task instructions and significantly enhances the physical validity of scenes over prior art.