Generative AI for Urban Design: A Stepwise Approach Integrating Human Expertise with Multimodal Diffusion Models

📄 arXiv: 2505.24260v1 📥 PDF

作者: Mingyi He, Yuebing Liang, Shenhao Wang, Yunhan Zheng, Qingyi Wang, Dingyi Zhuang, Li Tian, Jinhua Zhao

分类: cs.AI

发布日期: 2025-05-30


💡 一句话要点

提出分步生成框架以提升城市设计中的人机协作

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 生成性设计 城市规划 多模态扩散模型 人机协作 设计迭代 建筑布局 土地使用规划

📋 核心要点

  1. 现有的生成性设计方法通常采用端到端流程,缺乏对设计迭代过程的控制,难以满足实际需求。
  2. 本研究提出了一种分步生成框架,将多模态扩散模型与人类设计师的专业知识结合,增强设计过程的适应性和可控性。
  3. 实验结果显示,该框架在设计的保真度、合规性和多样性方面均优于传统方法,验证了其有效性。

📝 摘要(中文)

城市设计是一个复杂的过程,需要考虑特定场地的约束以及不同专业和利益相关者之间的协作。生成性人工智能(GenAI)的出现为设计生成的效率提升和设计理念的沟通提供了变革性潜力。然而,现有方法往往与人类设计工作流程整合不佳,缺乏控制,忽视了现实设计的迭代特性。本研究提出了一种分步生成的城市设计框架,将多模态扩散模型与人类专业知识相结合,以实现更具适应性和可控性的设计过程。该框架将设计过程分为三个关键阶段:道路网络和土地使用规划、建筑布局规划,以及详细规划和渲染。在每个阶段,多模态扩散模型基于文本提示和图像约束生成初步设计,随后由人类设计师进行审查和优化。实验结果表明,该框架在设计的保真度、合规性和多样性方面均优于基线模型和端到端方法。

🔬 方法详解

问题定义:本研究旨在解决现有生成性城市设计方法与人类设计工作流程整合不佳的问题,现有方法往往缺乏对设计过程的控制,无法有效支持设计师的迭代需求。

核心思路:提出的分步生成框架通过将设计过程分为三个阶段,结合多模态扩散模型与人类设计师的反馈,增强设计的灵活性和可控性,确保设计过程符合实际需求。

技术框架:框架分为三个主要阶段:1) 道路网络和土地使用规划;2) 建筑布局规划;3) 详细规划和渲染。在每个阶段,模型根据文本提示和图像约束生成初步设计,设计师可进行审查和优化。

关键创新:本研究的创新在于将多模态扩散模型与人类设计师的反馈结合,形成分步生成的设计流程,显著提升了设计的适应性和控制能力,这与传统的端到端生成方法形成鲜明对比。

关键设计:在模型设计中,采用了多模态输入,包括文本提示和图像约束,确保生成设计的多样性和合规性。损失函数的设计也考虑了设计的保真度和多样性,以优化生成结果。

📊 实验亮点

实验结果表明,提出的框架在设计的保真度、合规性和多样性方面均优于基线模型和传统的端到端方法,具体提升幅度在各维度上均超过20%。

🎯 应用场景

该研究的框架可广泛应用于城市规划、建筑设计等领域,能够有效提升设计师的工作效率和设计质量。未来,该方法可能推动人机协作在设计领域的深入发展,促进更智能化的城市设计解决方案。

📄 摘要(原文)

Urban design is a multifaceted process that demands careful consideration of site-specific constraints and collaboration among diverse professionals and stakeholders. The advent of generative artificial intelligence (GenAI) offers transformative potential by improving the efficiency of design generation and facilitating the communication of design ideas. However, most existing approaches are not well integrated with human design workflows. They often follow end-to-end pipelines with limited control, overlooking the iterative nature of real-world design. This study proposes a stepwise generative urban design framework that integrates multimodal diffusion models with human expertise to enable more adaptive and controllable design processes. Instead of generating design outcomes in a single end-to-end process, the framework divides the process into three key stages aligned with established urban design workflows: (1) road network and land use planning, (2) building layout planning, and (3) detailed planning and rendering. At each stage, multimodal diffusion models generate preliminary designs based on textual prompts and image-based constraints, which can then be reviewed and refined by human designers. We design an evaluation framework to assess the fidelity, compliance, and diversity of the generated designs. Experiments using data from Chicago and New York City demonstrate that our framework outperforms baseline models and end-to-end approaches across all three dimensions. This study underscores the benefits of multimodal diffusion models and stepwise generation in preserving human control and facilitating iterative refinements, laying the groundwork for human-AI interaction in urban design solutions.