Tokenization Allows Multimodal Large Language Models to Understand, Generate and Edit Architectural Floor Plans

📄 arXiv: 2603.11640v1 📥 PDF

作者: Sizhong Qin, Ramon Elias Weber, Xinzheng Lu

分类: cs.CV, cs.AI

发布日期: 2026-03-12

备注: 20 pages, 9 figures. Accepted to CVPR 2026


💡 一句话要点

提出HouseMind,利用Token化统一多模态大语言模型以理解、生成和编辑建筑平面图

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 建筑平面图 Token化 空间推理 可控生成

📋 核心要点

  1. 现有AI系统在建筑平面图设计中,难以进行连贯的空间推理和可控生成,几何、语义和空间层级结构的联合推理是挑战。
  2. HouseMind通过引入离散的房间实例Token,构建统一词汇表,连接布局和符号推理,实现平面图理解、生成和编辑的统一。
  3. 实验结果表明,HouseMind在几何有效性和可控性方面表现出色,同时保持了效率和本地可部署性。

📝 摘要(中文)

建筑平面图设计需要对几何、语义和空间层级结构进行联合推理,这对当前的人工智能系统来说仍然是一个主要的挑战。尽管最近的扩散模型和语言模型提高了视觉逼真度,但它们仍然难以进行连贯的空间推理和可控生成。我们提出了HouseMind,一个多模态大语言模型,它在一个框架中统一了平面图的理解、生成和编辑。我们引入了离散的房间实例Token来构建一个统一的词汇表,从而连接布局和符号推理。通过多模态对齐和指令微调,该模型可以从文本指令中合成连贯的、可控的布局。实验表明,该框架实现了卓越的几何有效性和可控性,同时保持了效率和本地可部署性。

🔬 方法详解

问题定义:现有方法在建筑平面图生成和编辑任务中,难以实现几何有效性和可控性。具体来说,模型难以理解复杂的空间关系,并根据文本指令精确地生成或修改平面图布局。扩散模型和语言模型虽然提升了视觉效果,但在空间推理方面仍然存在不足。

核心思路:HouseMind的核心思路是将平面图表示为一系列离散的房间实例Token,从而将视觉信息转化为符号信息,使得模型能够利用大语言模型的强大推理能力。通过统一的词汇表,模型可以同时处理平面图的理解、生成和编辑任务。

技术框架:HouseMind的整体框架包含以下几个主要模块:1) Token化模块:将平面图转换为离散的房间实例Token序列。2) 多模态对齐模块:将文本指令和Token序列进行对齐,学习它们之间的对应关系。3) 大语言模型:利用预训练的大语言模型进行指令微调,使其能够根据文本指令生成或编辑Token序列。4) 反Token化模块:将生成的Token序列转换为平面图。

关键创新:HouseMind的关键创新在于引入了离散的房间实例Token,将平面图表示为符号序列,从而能够利用大语言模型的强大推理能力。这种Token化方法使得模型能够更好地理解空间关系,并根据文本指令生成或编辑平面图布局。与现有方法相比,HouseMind在几何有效性和可控性方面具有显著优势。

关键设计:在Token化模块中,每个房间实例Token包含房间类型、位置、大小等信息。多模态对齐模块使用对比学习损失来学习文本指令和Token序列之间的对应关系。大语言模型采用Transformer架构,并使用指令微调方法进行训练。反Token化模块根据Token序列生成平面图的几何信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,HouseMind在平面图生成和编辑任务中取得了显著的性能提升。与现有方法相比,HouseMind在几何有效性和可控性方面表现更优。具体来说,HouseMind生成的平面图具有更高的几何精度,并且能够更好地满足文本指令的要求。此外,HouseMind还具有较高的效率和本地可部署性。

🎯 应用场景

HouseMind具有广泛的应用前景,可用于建筑设计、室内设计、房地产开发等领域。它可以帮助设计师快速生成和编辑平面图,提高设计效率。此外,HouseMind还可以用于智能家居、虚拟现实等领域,为用户提供更加个性化的空间设计体验。未来,该技术有望进一步发展,实现更加智能化的建筑设计和空间规划。

📄 摘要(原文)

Architectural floor plan design demands joint reasoning over geometry, semantics, and spatial hierarchy, which remains a major challenge for current AI systems. Although recent diffusion and language models improve visual fidelity, they still struggle with coherent spatial reasoning and controllable generation. We present HouseMind, a multimodal large language model that unifies floor plan understanding, generation, and editing in one framework. We introduce discrete room-instance tokens to construct a unified vocabulary that bridges layouts and symbolic reasoning. With multimodal alignment and instruction tuning, the model synthesizes coherent, controllable layouts from text instructions. Experiments show how the framework achieves superior geometric validity and controllability while remaining efficient and locally deployable.