MANSION: Multi-floor lANguage-to-3D Scene generatIOn for loNg-horizon tasks

📄 arXiv: 2603.11554v1 📥 PDF

作者: Lirong Che, Shuo Wen, Shan Huang, Chuang Wang, Yuzhe Yang, Gregory Dudek, Xueqian Wang, Jian Su

分类: cs.CV, cs.AI, cs.RO

发布日期: 2026-03-12


💡 一句话要点

MANSION:提出多楼层语言驱动的3D场景生成框架,用于长时程任务。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 多楼层场景生成 语言驱动 3D场景 长时程任务 具身智能 空间推理 MansionWorld数据集

📋 核心要点

  1. 现有具身智能基准测试主要局限于单层室内环境,难以反映真实世界任务的复杂性,尤其是在多楼层场景下的长时程任务。
  2. MANSION框架通过语言驱动的方式生成多楼层3D环境,并考虑了垂直结构约束,从而创建更真实、可导航的建筑场景。
  3. 实验表明,现有智能体在MANSION生成的多楼层环境中性能显著下降,验证了该框架作为空间推理和规划测试平台的价值。

📝 摘要(中文)

本文提出MANSION,首个用于生成建筑尺度、多楼层3D环境的语言驱动框架。MANSION能够感知垂直结构约束,生成具有多样化、人性化场景的逼真、可导航的完整建筑结构,从而支持跨楼层长时程任务的开发和评估。基于此框架,我们发布了MansionWorld数据集,包含超过1000个从医院到办公室等不同类型的建筑,以及一个任务语义场景编辑代理,该代理使用开放词汇命令来定制这些环境,以满足特定的用户需求。基准测试表明,最先进的智能体在我们的环境中性能急剧下降,这表明MANSION是下一代空间推理和规划的关键测试平台。

🔬 方法详解

问题定义:现有具身智能研究主要集中在单层室内环境中,缺乏对多楼层、大尺度建筑环境的建模和探索。这限制了智能体在真实世界复杂场景中执行长时程任务的能力。现有方法难以生成符合物理约束、结构合理的跨楼层场景,也缺乏对场景语义的精细控制。

核心思路:MANSION框架的核心在于利用语言指令来驱动多楼层3D场景的生成,并显式地建模建筑的垂直结构约束。通过这种方式,可以生成更逼真、可导航、语义可控的建筑环境,从而为长时程任务提供更具挑战性的测试平台。

技术框架:MANSION框架包含以下几个主要模块:1) 建筑结构生成器:根据用户输入的语言描述,生成建筑的整体结构,包括楼层数、房间布局等。2) 场景填充器:根据语言描述和建筑结构,填充房间内的物体,并保证物体之间的语义一致性。3) 导航图生成器:生成建筑内部的导航图,用于智能体的路径规划。4) 任务语义场景编辑器:允许用户通过开放词汇命令修改场景,以满足特定的任务需求。

关键创新:MANSION的关键创新在于:1) 首次提出了语言驱动的多楼层3D场景生成框架。2) 显式地建模了建筑的垂直结构约束,保证了生成场景的物理合理性。3) 提出了任务语义场景编辑器,允许用户通过自然语言指令定制场景。

关键设计:MANSION框架使用了多种技术来实现其功能。例如,建筑结构生成器使用了基于图神经网络的方法来建模建筑结构,场景填充器使用了基于生成对抗网络的方法来生成逼真的物体。任务语义场景编辑器使用了基于自然语言处理的方法来理解用户的指令。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有的智能体在MansionWorld数据集上表现显著下降,这表明该数据集对智能体的空间推理和规划能力提出了更高的要求。例如,在跨楼层导航任务中,现有智能体的成功率下降了超过50%。这验证了MANSION框架作为下一代空间推理和规划测试平台的价值。

🎯 应用场景

MANSION框架可应用于机器人导航、智能家居、虚拟现实等领域。它可以用于训练和评估机器人在复杂环境中的导航能力,也可以用于生成逼真的虚拟环境,为用户提供沉浸式的体验。此外,该框架还可以用于辅助建筑设计,帮助设计师快速生成不同类型的建筑方案。

📄 摘要(原文)

Real-world robotic tasks are long-horizon and often span multiple floors, demanding rich spatial reasoning. However, existing embodied benchmarks are largely confined to single-floor in-house environments, failing to reflect the complexity of real-world tasks. We introduce MANSION, the first language-driven framework for generating building-scale, multi-floor 3D environments. Being aware of vertical structural constraints, MANSION generates realistic, navigable whole-building structures with diverse, human-friendly scenes, enabling the development and evaluation of cross-floor long-horizon tasks. Building on this framework, we release MansionWorld, a dataset of over 1,000 diverse buildings ranging from hospitals to offices, alongside a Task-Semantic Scene Editing Agent that customizes these environments using open-vocabulary commands to meet specific user needs. Benchmarking reveals that state-of-the-art agents degrade sharply in our settings, establishing MANSION as a critical testbed for the next generation of spatial reasoning and planning.