Scenethesis: A Language and Vision Agentic Framework for 3D Scene Generation

📄 arXiv: 2505.02836v1 📥 PDF

作者: Lu Ling, Chen-Hsuan Lin, Tsung-Yi Lin, Yifan Ding, Yu Zeng, Yichen Sheng, Yunhao Ge, Ming-Yu Liu, Aniket Bera, Zhaoshuo Li

分类: cs.CV

发布日期: 2025-05-05


💡 一句话要点

Scenethesis:基于语言和视觉Agent的3D场景生成框架

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D场景生成 语言模型 视觉感知 Agent框架 物理合理性

📋 核心要点

  1. 现有3D场景生成方法依赖小规模数据集,限制了场景的多样性和复杂性,难以满足实际应用需求。
  2. Scenethesis框架结合LLM的语义理解能力和视觉感知的空间推理能力,实现更真实、合理的3D场景生成。
  3. 实验结果表明,Scenethesis能生成多样、逼真且物理上合理的3D交互场景,具有重要的应用价值。

📝 摘要(中文)

本文提出Scenethesis,一个用于生成交互式3D场景的无训练Agent框架。现有方法依赖于小规模室内数据集,限制了场景多样性和布局复杂度。大型语言模型(LLM)虽然能利用丰富的文本知识,但缺乏空间真实感,导致物体放置不自然。Scenethesis的核心思想是利用视觉感知弥补LLM的不足,提供真实的场景空间指导。该框架首先使用LLM生成粗略布局,然后通过视觉模块生成图像指导并提取场景结构,捕捉物体间的关系。优化模块迭代地保证精确的姿态对齐和物理合理性,避免物体穿透和不稳定等问题。最后,判断模块验证空间一致性。实验表明,Scenethesis能够生成多样、真实且物理上合理的3D交互场景,对虚拟内容创作、模拟环境和具身智能研究具有重要价值。

🔬 方法详解

问题定义:现有基于学习的3D场景生成方法依赖于小规模的室内数据集,这限制了生成场景的多样性和布局的复杂性。虽然大型语言模型(LLMs)可以利用丰富的文本领域知识,但它们在空间真实感方面存在不足,经常产生不自然的物体放置,未能尊重常识。因此,如何结合LLM的语义理解能力和视觉感知的空间推理能力,生成更真实、合理的3D场景是一个关键问题。

核心思路:Scenethesis的核心思路是利用视觉感知来弥补LLM在空间推理方面的不足。LLM擅长理解文本描述并生成场景的粗略布局,而视觉模块则负责提供真实的场景空间指导,例如物体之间的关系、物理约束等。通过将LLM的语义理解和视觉感知的空间推理相结合,可以生成更逼真、更符合物理规律的3D场景。

技术框架:Scenethesis是一个训练自由的Agent框架,主要包含以下几个模块:1) LLM场景规划模块:根据文本提示,利用LLM生成场景的粗略布局,包括物体种类和大致位置。2) 视觉引导模块:生成图像指导并提取场景结构,捕捉物体间的关系。3) 优化模块:迭代地执行姿态对齐和物理合理性,防止物体穿透和不稳定等问题。4) 判断模块:验证空间一致性,确保生成的场景在空间上是合理的。

关键创新:Scenethesis的关键创新在于将LLM的场景规划能力与视觉感知的空间推理能力相结合,从而生成更真实、更合理的3D场景。与现有方法相比,Scenethesis不需要大量的训练数据,并且能够生成更复杂、更逼真的场景。此外,该框架采用Agent的形式,各个模块之间可以协同工作,从而实现更高效的场景生成。

关键设计:视觉引导模块通过生成图像指导来提供空间信息,具体的实现方式未知。优化模块通过迭代优化来保证姿态对齐和物理合理性,具体的优化算法和损失函数未知。判断模块用于验证空间一致性,具体的验证方法未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验验证了Scenethesis的有效性,证明其能够生成多样、真实且物理上合理的3D交互场景。具体的性能数据和对比基线未知,但论文强调Scenethesis在虚拟内容创作、模拟环境和具身智能研究方面的价值。

🎯 应用场景

Scenethesis在多个领域具有广泛的应用前景,包括游戏开发、虚拟现实、具身智能等。它可以用于快速生成各种虚拟场景,例如游戏关卡、虚拟训练环境等。此外,Scenethesis还可以用于具身智能的研究,例如帮助机器人理解和操作真实世界。未来,该研究有望推动虚拟内容创作和具身智能的发展。

📄 摘要(原文)

Synthesizing interactive 3D scenes from text is essential for gaming, virtual reality, and embodied AI. However, existing methods face several challenges. Learning-based approaches depend on small-scale indoor datasets, limiting the scene diversity and layout complexity. While large language models (LLMs) can leverage diverse text-domain knowledge, they struggle with spatial realism, often producing unnatural object placements that fail to respect common sense. Our key insight is that vision perception can bridge this gap by providing realistic spatial guidance that LLMs lack. To this end, we introduce Scenethesis, a training-free agentic framework that integrates LLM-based scene planning with vision-guided layout refinement. Given a text prompt, Scenethesis first employs an LLM to draft a coarse layout. A vision module then refines it by generating an image guidance and extracting scene structure to capture inter-object relations. Next, an optimization module iteratively enforces accurate pose alignment and physical plausibility, preventing artifacts like object penetration and instability. Finally, a judge module verifies spatial coherence. Comprehensive experiments show that Scenethesis generates diverse, realistic, and physically plausible 3D interactive scenes, making it valuable for virtual content creation, simulation environments, and embodied AI research.