HDSL: A Hierarchical Domain-Specific Language for Structured 3D Indoor Scene Generation and Localized Editing with LLM Agents

📄 arXiv: 2606.09738v1 📥 PDF

作者: Letian Li, Chao Shen, Shuzhao Xie, Chenghao Gu, ZhengXiao He, Yu Meng, Xin Yang, Wenyuan Jiang, Zhi Wang

分类: cs.CV

发布日期: 2026-06-08


💡 一句话要点

提出HDSL以解决文本驱动室内场景生成与编辑问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 室内场景生成 层次描述语言 文本驱动编辑 多模态检索 程序生成 局部修复 几何优化

📋 核心要点

  1. 现有的LLM系统在局部几何细节上不足,导致文本驱动的室内场景生成与编辑难以实现精确定位。
  2. 提出层次描述场景语言(HDSL),通过树结构表示场景元素,简化复杂场景的生成与编辑过程。
  3. HDSL在基准测试中提升了对象覆盖率、文本与场景的对齐度和生成时间,并在编辑方面显著减少了令牌使用和运行时间。

📝 摘要(中文)

文本驱动的室内场景生成与编辑需要一种中间表示,语言模型既能生成又能修订。现有的基于LLM的系统通常依赖于场景图或全局约束列表,这些方法虽然紧凑,但在局部几何细节上不足,导致基于指令的编辑难以定位。本文将此问题框定为结构化程序生成与局部程序修复,提出了层次描述场景语言(HDSL),这是一种用于结构化3D室内场景的XML/CSS风格领域特定语言。HDSL将房间、区域、物体和支撑表面表示为带有局部坐标的树结构,使复杂场景的规划和编辑变得更加简单。我们的管道使用LLM代理生成带有边界验证的HDSL子树,通过多模态资产检索定位非虚拟节点,并应用力导向布局优化修复边界和碰撞错误。

🔬 方法详解

问题定义:本文旨在解决现有基于LLM的室内场景生成与编辑方法在局部几何细节上的不足,导致指令编辑难以精确定位的问题。

核心思路:提出HDSL作为一种结构化程序生成与局部程序修复的解决方案,通过树结构表示场景元素,使得复杂场景的规划和编辑更加高效。

技术框架:整体架构包括使用LLM代理生成HDSL子树、通过多模态资产检索定位非虚拟节点,以及应用力导向布局优化修复边界和碰撞错误的多个模块。

关键创新:HDSL的设计使得场景元素以树结构形式组织,显著提升了场景生成与编辑的灵活性和准确性,与传统方法相比,能够更好地处理局部几何细节。

关键设计:在HDSL中,采用了XML/CSS风格的语法,设置了边界验证机制,并通过力导向布局优化来处理场景中的碰撞问题,确保生成的场景符合物理约束。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在基准测试中,HDSL在对象覆盖率、文本与场景对齐度和生成时间上均优于传统的文本到场景基线,同时在几何指标上与最新的布局重现方法保持竞争力。编辑方面,HRAG减少了5.22倍的令牌使用和6.19倍的运行时间,成功生成有效的DSL并更好地保留了无关场景对象。

🎯 应用场景

该研究在室内场景生成和编辑领域具有广泛的应用潜力,能够为虚拟现实、游戏开发和建筑设计等行业提供高效的工具。未来,HDSL可能会与其他AI技术结合,进一步提升场景生成的智能化水平。

📄 摘要(原文)

Text-driven indoor scene generation and editing require an intermediate representation that language models can both produce and revise. Existing LLM-based systems often rely on scene graphs or global constraint lists, which are compact but underspecify local geometry and make instruction-based edits difficult to localize. We frame this problem as structured program generation and local program repair, and propose Hierarchical Descriptive Scene Language (HDSL), an XML/CSS-style domain-specific language for structured 3D indoor scenes. HDSL represents rooms, regions, objects, and support surfaces as a tree with local coordinates, making complex scenes easier to plan recursively and easier to retrieve for editing. Our pipeline uses LLM agents to generate HDSL subtrees with bounded verification, grounds non-virtual nodes through multimodal asset retrieval, and applies force-directed layout optimization to repair boundary and collision errors. For editing, Hierarchical Retrieval-Augmented Generation retrieves the relevant subtree, asks the LLM to rewrite only that local context, and merges the result back through a deterministic three-way merge. In our reproduced benchmark, HDSL improves average object coverage, text-scene alignment, and generation time over full text-to-scene baselines while remaining competitive with recent layout-only reproductions on geometry metrics; for editing, HRAG reduces token use by $5.22\times$ and runtime by $6.19\times$, produces valid DSL for all eight paired edits, and better preserves unrelated scene objects.