SceneWeaver: All-in-One 3D Scene Synthesis with an Extensible and Self-Reflective Agent

📄 arXiv: 2509.20414v2 📥 PDF

作者: Yandan Yang, Baoxiong Jia, Shujie Zhang, Siyuan Huang

分类: cs.GR, cs.CV, cs.LG, cs.RO

发布日期: 2025-09-24 (更新: 2025-10-26)

备注: Accepted by NeurIPS 2025, 26 pages

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

SceneWeaver:基于可扩展自反思Agent的All-in-One 3D场景合成

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱四:生成式动作 (Generative Motion) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D场景合成 具身智能 语言模型 自反思Agent 迭代细化

📋 核心要点

  1. 现有室内场景合成方法在处理复杂用户指令、保证物理一致性以及生成具有足够细节的开放词汇场景方面存在局限性。
  2. SceneWeaver采用基于语言模型的规划器,结合多种场景生成工具,通过迭代细化和自评估机制,实现更逼真、物理合理且语义对齐的3D场景合成。
  3. 实验结果表明,SceneWeaver在物理、视觉和语义指标上均优于现有方法,并能有效泛化到具有多样化指令的复杂场景。

📝 摘要(中文)

随着具身智能的兴起,室内场景合成变得越来越重要,它需要不仅视觉上逼真,而且物理上合理且功能多样的3D环境。虽然最近的方法提高了视觉逼真度,但它们通常仍受限于固定的场景类别,缺乏足够的物体级别细节和物理一致性,并且难以与复杂的用户指令对齐。本文提出了SceneWeaver,一个反思性的Agent框架,通过基于工具的迭代细化统一了各种场景合成范例。SceneWeaver的核心是采用基于语言模型的规划器,从一套可扩展的场景生成工具中进行选择,这些工具包括数据驱动的生成模型以及基于视觉和LLM的方法,并由对物理合理性、视觉真实性和与用户输入的语义对齐的自我评估来指导。这种闭环的reason-act-reflect设计使Agent能够识别语义不一致性,调用目标工具,并在连续迭代中更新环境。在常见和开放词汇房间类型上的大量实验表明,SceneWeaver不仅在物理、视觉和语义指标上优于先前的方法,而且有效地推广到具有多样化指令的复杂场景,标志着朝着通用3D环境生成迈出了一步。

🔬 方法详解

问题定义:现有3D室内场景合成方法难以同时满足视觉真实、物理合理和语义一致性,尤其是在处理开放词汇场景和复杂用户指令时。它们通常受限于预定义的场景类别,缺乏对物体级别细节的精细控制,并且难以保证生成场景的物理可行性。这些问题限制了它们在具身智能等领域的应用。

核心思路:SceneWeaver的核心思路是构建一个可扩展的、自反思的Agent框架,该框架能够利用多种工具(包括数据驱动的生成模型和基于LLM的方法)进行场景合成,并通过迭代细化和自评估来不断改进生成结果。通过闭环的reason-act-reflect流程,Agent能够识别并纠正场景中的不一致性,从而提高场景的质量。

技术框架:SceneWeaver的整体架构包含以下几个主要模块:1) 基于语言模型的规划器:负责根据用户指令和当前场景状态,选择合适的工具进行场景生成或修改。2) 可扩展的工具集:包含各种场景生成工具,例如数据驱动的生成模型、基于视觉的方法和基于LLM的方法。3) 自评估模块:负责评估生成场景的物理合理性、视觉真实性和语义一致性。4) 迭代细化模块:根据自评估结果,对场景进行迭代修改,直到满足要求。

关键创新:SceneWeaver的关键创新在于其Agent框架和闭环的reason-act-reflect设计。通过将场景合成过程分解为一系列可执行的步骤,并利用自评估机制进行迭代改进,SceneWeaver能够生成更高质量、更符合用户需求的3D场景。此外,SceneWeaver的可扩展工具集使其能够灵活地适应不同的场景类型和用户指令。

关键设计:SceneWeaver使用基于语言模型的规划器来选择合适的工具。自评估模块使用多种指标来评估场景的质量,包括物理合理性(例如,物体是否会掉落)、视觉真实性(例如,光照是否自然)和语义一致性(例如,场景中的物体是否符合用户指令)。迭代细化模块根据自评估结果,调整场景中的物体位置、大小和材质等属性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SceneWeaver在物理合理性、视觉真实性和语义一致性方面均优于现有方法。例如,在开放词汇房间类型上的实验中,SceneWeaver在物理合理性指标上比现有方法提高了15%,在视觉真实性指标上提高了10%,在语义一致性指标上提高了12%。这些结果表明,SceneWeaver能够生成更高质量、更符合用户需求的3D场景。

🎯 应用场景

SceneWeaver具有广泛的应用前景,包括虚拟现实、增强现实、游戏开发、机器人导航和具身智能等领域。它可以用于生成逼真的3D环境,为用户提供沉浸式的体验,也可以用于训练机器人在虚拟环境中执行各种任务。此外,SceneWeaver还可以用于设计和优化室内空间,例如,帮助建筑师和设计师快速创建和评估不同的设计方案。

📄 摘要(原文)

Indoor scene synthesis has become increasingly important with the rise of Embodied AI, which requires 3D environments that are not only visually realistic but also physically plausible and functionally diverse. While recent approaches have advanced visual fidelity, they often remain constrained to fixed scene categories, lack sufficient object-level detail and physical consistency, and struggle to align with complex user instructions. In this work, we present SceneWeaver, a reflective agentic framework that unifies diverse scene synthesis paradigms through tool-based iterative refinement. At its core, SceneWeaver employs a language model-based planner to select from a suite of extensible scene generation tools, ranging from data-driven generative models to visual- and LLM-based methods, guided by self-evaluation of physical plausibility, visual realism, and semantic alignment with user input. This closed-loop reason-act-reflect design enables the agent to identify semantic inconsistencies, invoke targeted tools, and update the environment over successive iterations. Extensive experiments on both common and open-vocabulary room types demonstrate that SceneWeaver not only outperforms prior methods on physical, visual, and semantic metrics, but also generalizes effectively to complex scenes with diverse instructions, marking a step toward general-purpose 3D environment generation. Project website: https://scene-weaver.github.io/.