3D-Layout-R1: Structured Reasoning for Language-Instructed Spatial Editing
作者: Haoyu Zhen, Xiaolong Li, Yilin Zhao, Han Zhang, Sifei Liu, Kaichun Mo, Chuang Gan, Subhashree Radhakrishnan
分类: cs.CV, cs.AI
发布日期: 2026-03-23
💡 一句话要点
提出3D-Layout-R1框架,通过结构化推理实现语言指导的空间编辑。
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 3D场景编辑 场景图推理 语言引导 空间布局 结构化推理
📋 核心要点
- 现有LLM/VLM在细粒度视觉编辑中,难以保证空间理解和布局一致性。
- 提出结构化推理框架,通过场景图推理实现文本引导的空间布局编辑。
- 实验表明,该方法在IoU上平均提升15%,中心距离误差降低25%,mIoU提升高达20%。
📝 摘要(中文)
大型语言模型(LLMs)和视觉语言模型(VLMs)在推理能力方面表现出色,但在执行细粒度视觉编辑时,它们在空间理解和布局一致性方面存在困难。我们引入了一个结构化推理框架,该框架通过场景图推理执行文本条件下的空间布局编辑。给定一个输入场景图和一个自然语言指令,该模型对图进行推理,以生成一个满足文本条件同时保持空间连贯性的更新场景图。通过显式地通过结构化关系表示来指导推理过程,我们的方法提高了空间关系的解释性和控制性。我们在一个新的文本引导布局编辑基准上评估了我们的方法,该基准包括排序、空间对齐和房间编辑任务。与思维链微调(CoT-SFT)和原始GRPO基线相比,我们的训练范式在IoU方面平均提高了15%,中心距离误差降低了25%。与SOTA零样本LLMs相比,我们最好的模型实现了高达20%的mIoU提升,表明空间精度显著提高。
🔬 方法详解
问题定义:现有的大型语言模型和视觉语言模型在处理需要精细空间理解的视觉编辑任务时,例如根据文本指令调整3D场景的布局,往往表现不佳。它们难以维持场景中物体之间的空间关系,导致编辑后的场景在布局上不一致或不合理。现有方法缺乏对空间关系的显式建模和推理能力。
核心思路:该论文的核心思路是通过引入场景图作为中间表示,显式地建模场景中物体之间的空间关系。利用场景图的结构化信息,模型可以更好地理解文本指令中蕴含的空间约束,并生成符合这些约束的新的场景图。然后,根据更新后的场景图来编辑3D场景,从而保证编辑后的场景在空间上的一致性和合理性。
技术框架:该框架主要包含以下几个阶段:1) 输入场景图和自然语言指令;2) 模型对场景图进行推理,生成更新后的场景图,该过程考虑了文本指令中的空间约束;3) 根据更新后的场景图,对3D场景进行编辑,例如调整物体的位置、大小或方向。整个框架通过结构化的场景图表示,将文本指令中的空间信息显式地传递到3D场景编辑过程中。
关键创新:该论文的关键创新在于提出了一个基于场景图的结构化推理框架,用于文本引导的空间布局编辑。与以往直接使用LLM/VLM进行视觉编辑的方法不同,该方法显式地建模了场景中物体之间的空间关系,并通过场景图推理来保证编辑后的场景在空间上的一致性和合理性。这种结构化的推理方式提高了模型的可解释性和对空间关系的控制能力。
关键设计:该论文的关键设计包括:1) 使用场景图来表示3D场景,其中节点表示物体,边表示物体之间的空间关系;2) 设计了专门的场景图推理模块,用于根据文本指令更新场景图;3) 使用了特定的损失函数来鼓励模型生成符合空间约束的场景图,例如,可以设计损失函数来惩罚物体之间的重叠或不合理的距离。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在文本引导的布局编辑任务上取得了显著的性能提升。与CoT-SFT和GRPO基线相比,IoU平均提高了15%,中心距离误差降低了25%。与SOTA零样本LLMs相比,mIoU提升高达20%,表明该方法在空间精度方面具有显著优势。
🎯 应用场景
该研究成果可应用于室内设计、虚拟现实、游戏开发等领域。例如,用户可以通过自然语言指令快速修改房间布局,或者在虚拟环境中创建符合特定要求的场景。该技术还可以用于辅助机器人进行场景理解和导航,使其能够更好地与周围环境进行交互。
📄 摘要(原文)
Large Language Models (LLMs) and Vision Language Models (VLMs) have shown impressive reasoning abilities, yet they struggle with spatial understanding and layout consistency when performing fine-grained visual editing. We introduce a Structured Reasoning framework that performs text-conditioned spatial layout editing via scene-graph reasoning. Given an input scene graph and a natural-language instruction, the model reasons over the graph to generate an updated scene graph that satisfies the text condition while maintaining spatial coherence. By explicitly guiding the reasoning process through structured relational representations, our approach improves both interpretability and control over spatial relationships. We evaluate our method on a new text-guided layout editing benchmark encompassing sorting, spatial alignment, and room-editing tasks. Our training paradigm yields an average 15% improvement in IoU and 25% reduction in center-distance error compared to Chain of Thought Fine-tuning (CoT-SFT) and vanilla GRPO baselines. Compared to SOTA zero-shot LLMs, our best models achieve up to 20% higher mIoU, demonstrating markedly improved spatial precision.