SpatialGrammar: A Domain-Specific Language for LLM-Based 3D Indoor Scene Generation

作者: Song Tang, Kaiyong Zhao, Yuliang Li, Qingsong Yan, Penglei Sun, Junyi Zou, Qiang Wang, Xiaowen Chu

分类: cs.AI

发布日期: 2026-04-30

💡 一句话要点

提出SpatialGrammar领域特定语言，提升LLM生成3D室内场景的空间一致性。

🎯 匹配领域: 支柱七：动作重定向 (Motion Retargeting) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 3D场景生成 领域特定语言 大型语言模型 空间推理 物理约束

📋 核心要点

现有基于LLM的3D室内场景生成方法难以保证空间一致性和避免物体碰撞，因为模型难以推理3D空间关系。
SpatialGrammar使用BEV网格表示场景布局，并确定性编译为3D几何体，实现可验证的约束检查，保证场景的物理合理性。
SG-Agent通过闭环迭代优化和碰撞约束，SG-Mini在合成数据上训练，实验表明两者均优于现有方法，提升了空间保真度和物理合理性。

📝 摘要（中文）

本文提出SpatialGrammar，一种领域特定语言，用于从自然语言自动生成可交互的3D室内场景，这对于虚拟现实、游戏和具身智能至关重要。现有的基于LLM的方法常常遭受空间错误和碰撞问题，部分原因是常见的场景表示（原始坐标或冗长的代码）难以让模型推理3D空间关系和物理约束。SpatialGrammar将重力对齐的室内布局表示为BEV网格放置，并确定性地编译为有效的3D几何体，从而实现可验证的约束检查。在此基础上，我们开发了(1) SG-Agent，一个闭环系统，利用编译器反馈迭代地细化场景并强制执行碰撞约束；(2) SG-Mini，一个完全在编译器验证的合成数据上训练的104M参数模型。在涵盖五种不同复杂程度场景的159个测试场景中，SG-Agent在空间保真度和物理合理性方面优于先前的方法，而SG-Mini在单次生成场景中与更大的基于LLM的基线模型相比具有竞争力。

🔬 方法详解

问题定义：现有基于LLM的3D室内场景生成方法，通常使用原始坐标或冗长的代码作为场景表示，这使得模型难以理解和推理3D空间关系，导致生成的场景中存在空间错误和物体碰撞等问题。这些方法缺乏对物理约束的有效建模和验证，难以生成符合物理规律的合理场景。

核心思路：论文的核心思路是设计一种领域特定语言（DSL）SpatialGrammar，将3D室内场景表示为重力对齐的BEV网格布局。这种表示方式简化了空间推理，并允许通过确定性编译生成有效的3D几何体。通过这种方式，可以更容易地进行约束检查，确保生成的场景在空间上是一致的，并且避免物体碰撞。

技术框架：整体框架包含两个主要部分：SG-Agent和SG-Mini。SG-Agent是一个闭环系统，它使用LLM生成初始场景布局，然后通过SpatialGrammar编译器进行验证。如果发现碰撞或其他违反约束的情况，编译器会提供反馈，LLM会根据反馈迭代地调整场景布局，直到满足所有约束。SG-Mini是一个小型LLM，完全在SpatialGrammar生成的合成数据上进行训练，用于单次生成场景布局。

关键创新：SpatialGrammar作为一种领域特定语言，是该论文最重要的创新点。它提供了一种结构化的、易于推理的场景表示方法，使得LLM能够更好地理解和生成3D室内场景。与直接使用坐标或代码相比，SpatialGrammar能够更好地表达空间关系和物理约束，从而提高生成场景的质量。

关键设计：SpatialGrammar使用BEV网格来表示场景布局，每个网格单元表示一个物体或空位。SpatialGrammar定义了一系列规则，用于描述物体之间的空间关系和约束，例如物体必须放置在地面上，物体不能相互碰撞等。SG-Agent使用LLM生成SpatialGrammar代码，然后使用编译器将其转换为3D场景。编译器会检查场景是否满足所有约束，并提供反馈给LLM。SG-Mini使用Transformer架构，并在大量SpatialGrammar生成的合成数据上进行训练。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SG-Agent在空间保真度和物理合理性方面优于现有方法，能够生成更逼真、更符合物理规律的3D室内场景。SG-Mini虽然参数量较小（104M），但在单次生成场景中与更大的基于LLM的基线模型相比具有竞争力，证明了SpatialGrammar的有效性和效率。

🎯 应用场景

该研究成果可应用于虚拟现实、游戏开发、机器人导航和具身智能等领域。通过自然语言描述，用户可以快速生成逼真的3D室内场景，用于VR/AR体验、游戏关卡设计、机器人环境建模等。该技术还可以用于训练具身智能体，使其能够在虚拟环境中学习和执行任务。

📄 摘要（原文）

Automatically generating interactive 3D indoor scenes from natural language is crucial for virtual reality, gaming, and embodied AI. However, existing LLM-based approaches often suffer from spatial errors and collisions, in part because common scene representations-raw coordinates or verbose code-are difficult for models to reason about 3D spatial relationships and physical constraints. We propose SpatialGrammar, a domain-specific language that represents gravity-aligned indoor layouts as BEV grid placements with deterministic compilation to valid 3D geometry, enabling verifiable constraint checking. Building on this representation, we develop (1) SG-Agent, a closed-loop system that uses compiler feedback to iteratively refine scenes and enforce collision constraints, and (2) SG-Mini, a 104M-parameter model trained entirely on compiler-validated synthetic data. Across 159 test scenes spanning five scenarios of different complexity, SG-Agent improves spatial fidelity and physical plausibility over prior methods, while SG-Mini performs competitively against larger LLM-based baselines on single-shot generation scenarios.

SpatialGrammar: A Domain-Specific Language for LLM-Based 3D Indoor Scene Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理