SpatialGrammar: A Domain-Specific Language for LLM-Based 3D Indoor Scene Generation

📄 arXiv: 2604.27555v1 📥 PDF

作者: Song Tang, Kaiyong Zhao, Yuliang Li, Qingsong Yan, Penglei Sun, Junyi Zou, Qiang Wang, Xiaowen Chu

分类: cs.AI

发布日期: 2026-04-30


💡 一句话要点

提出SpatialGrammar领域特定语言,提升LLM生成3D室内场景的空间一致性。

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D场景生成 领域特定语言 大型语言模型 空间推理 物理约束

📋 核心要点

  1. 现有基于LLM的3D室内场景生成方法难以保证空间一致性和避免物体碰撞,因为模型难以推理3D空间关系。
  2. SpatialGrammar使用BEV网格表示场景布局,并确定性编译为3D几何体,实现可验证的约束检查,保证场景的物理合理性。
  3. SG-Agent通过闭环迭代优化和碰撞约束,SG-Mini在合成数据上训练,实验表明两者均优于现有方法,提升了空间保真度和物理合理性。

📝 摘要(中文)

本文提出SpatialGrammar,一种领域特定语言,用于从自然语言自动生成可交互的3D室内场景,这对于虚拟现实、游戏和具身智能至关重要。现有的基于LLM的方法常常遭受空间错误和碰撞问题,部分原因是常见的场景表示(原始坐标或冗长的代码)难以让模型推理3D空间关系和物理约束。SpatialGrammar将重力对齐的室内布局表示为BEV网格放置,并确定性地编译为有效的3D几何体,从而实现可验证的约束检查。在此基础上,我们开发了(1) SG-Agent,一个闭环系统,利用编译器反馈迭代地细化场景并强制执行碰撞约束;(2) SG-Mini,一个完全在编译器验证的合成数据上训练的104M参数模型。在涵盖五种不同复杂程度场景的159个测试场景中,SG-Agent在空间保真度和物理合理性方面优于先前的方法,而SG-Mini在单次生成场景中与更大的基于LLM的基线模型相比具有竞争力。

🔬 方法详解

问题定义:现有基于LLM的3D室内场景生成方法,通常使用原始坐标或冗长的代码作为场景表示,这使得模型难以理解和推理3D空间关系,导致生成的场景中存在空间错误和物体碰撞等问题。这些方法缺乏对物理约束的有效建模和验证,难以生成符合物理规律的合理场景。

核心思路:论文的核心思路是设计一种领域特定语言(DSL)SpatialGrammar,将3D室内场景表示为重力对齐的BEV网格布局。这种表示方式简化了空间推理,并允许通过确定性编译生成有效的3D几何体。通过这种方式,可以更容易地进行约束检查,确保生成的场景在空间上是一致的,并且避免物体碰撞。

技术框架:整体框架包含两个主要部分:SG-Agent和SG-Mini。SG-Agent是一个闭环系统,它使用LLM生成初始场景布局,然后通过SpatialGrammar编译器进行验证。如果发现碰撞或其他违反约束的情况,编译器会提供反馈,LLM会根据反馈迭代地调整场景布局,直到满足所有约束。SG-Mini是一个小型LLM,完全在SpatialGrammar生成的合成数据上进行训练,用于单次生成场景布局。

关键创新:SpatialGrammar作为一种领域特定语言,是该论文最重要的创新点。它提供了一种结构化的、易于推理的场景表示方法,使得LLM能够更好地理解和生成3D室内场景。与直接使用坐标或代码相比,SpatialGrammar能够更好地表达空间关系和物理约束,从而提高生成场景的质量。

关键设计:SpatialGrammar使用BEV网格来表示场景布局,每个网格单元表示一个物体或空位。SpatialGrammar定义了一系列规则,用于描述物体之间的空间关系和约束,例如物体必须放置在地面上,物体不能相互碰撞等。SG-Agent使用LLM生成SpatialGrammar代码,然后使用编译器将其转换为3D场景。编译器会检查场景是否满足所有约束,并提供反馈给LLM。SG-Mini使用Transformer架构,并在大量SpatialGrammar生成的合成数据上进行训练。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SG-Agent在空间保真度和物理合理性方面优于现有方法,能够生成更逼真、更符合物理规律的3D室内场景。SG-Mini虽然参数量较小(104M),但在单次生成场景中与更大的基于LLM的基线模型相比具有竞争力,证明了SpatialGrammar的有效性和效率。

🎯 应用场景

该研究成果可应用于虚拟现实、游戏开发、机器人导航和具身智能等领域。通过自然语言描述,用户可以快速生成逼真的3D室内场景,用于VR/AR体验、游戏关卡设计、机器人环境建模等。该技术还可以用于训练具身智能体,使其能够在虚拟环境中学习和执行任务。

📄 摘要(原文)

Automatically generating interactive 3D indoor scenes from natural language is crucial for virtual reality, gaming, and embodied AI. However, existing LLM-based approaches often suffer from spatial errors and collisions, in part because common scene representations-raw coordinates or verbose code-are difficult for models to reason about 3D spatial relationships and physical constraints. We propose SpatialGrammar, a domain-specific language that represents gravity-aligned indoor layouts as BEV grid placements with deterministic compilation to valid 3D geometry, enabling verifiable constraint checking. Building on this representation, we develop (1) SG-Agent, a closed-loop system that uses compiler feedback to iteratively refine scenes and enforce collision constraints, and (2) SG-Mini, a 104M-parameter model trained entirely on compiler-validated synthetic data. Across 159 test scenes spanning five scenarios of different complexity, SG-Agent improves spatial fidelity and physical plausibility over prior methods, while SG-Mini performs competitively against larger LLM-based baselines on single-shot generation scenarios.