UrbanPlanBench: A Comprehensive Urban Planning Benchmark for Evaluating Large Language Models

📄 arXiv: 2504.21027v1 📥 PDF

作者: Yu Zheng, Longyi Liu, Yuming Lin, Jie Feng, Guozhen Zhang, Depeng Jin, Yong Li

分类: cs.CL, cs.AI

发布日期: 2025-04-23

🔗 代码/项目: GITHUB


💡 一句话要点

UrbanPlanBench:一个用于评估大型语言模型在城市规划领域能力的综合基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 城市规划 基准测试 监督微调 知识评估

📋 核心要点

  1. 城市规划依赖领域知识和专家经验,但LLM在该领域的应用潜力尚未充分挖掘。
  2. 论文构建UrbanPlanBench基准,评估LLM在城市规划原则、知识、管理和法规方面的能力。
  3. 实验表明,LLM在规划知识掌握方面存在不平衡,微调后的模型在记忆和理解方面有所提升。

📝 摘要(中文)

大型语言模型(LLM)有望彻底改变传统上由人类专家主导的各个领域。城市规划是一个严重依赖多方面领域知识和人类专家经验的专业学科。LLM在多大程度上可以协助城市规划从业者在很大程度上仍未得到探索。本文介绍了一个全面的基准UrbanPlanBench,专门用于评估LLM在城市规划中的有效性,该基准涵盖了基本原则、专业知识以及管理和法规,与人类规划师的资格期望紧密相关。通过广泛的评估,我们揭示了LLM在规划知识获取方面存在显着的不平衡,即使是最熟练的模型也未能达到专业标准。例如,我们观察到,与规划的其他方面相比,70%的LLM在理解规划法规方面的表现不佳。除了基准之外,我们还提供了有史以来最大的监督微调(SFT)数据集UrbanPlanText,其中包含来自城市规划考试和教科书的30,000多个指令对。我们的研究结果表明,经过微调的模型在记忆测试和城市规划知识理解方面表现出更高的性能,但仍有很大的改进空间,尤其是在需要特定领域术语和推理的任务中。通过在https://github.com/tsinghua-fib-lab/PlanBench上公开发布我们的基准、数据集以及相关的评估和微调工具集,我们旨在促进LLM集成到实际的城市规划中,从而促进人类专业知识和机器智能之间的共生协作。

🔬 方法详解

问题定义:现有方法缺乏对LLM在城市规划领域能力的系统评估。城市规划是一个专业性很强的领域,需要综合考虑规划原则、专业知识、管理法规等多个方面。现有的LLM评估方法难以全面衡量LLM在城市规划任务中的表现,阻碍了LLM在该领域的应用。

核心思路:论文的核心思路是构建一个全面的城市规划基准UrbanPlanBench,用于系统评估LLM在城市规划领域的知识和能力。通过设计包含多种类型任务的基准,可以更全面地了解LLM在不同方面的表现,并为后续的改进提供指导。

技术框架:UrbanPlanBench包含以下几个主要组成部分:1) 城市规划知识库:包含城市规划的基本原则、专业知识、管理法规等内容。2) 评估任务集:包含多种类型的任务,例如选择题、问答题、案例分析等,用于评估LLM在不同方面的能力。3) 评估指标:用于衡量LLM在各个任务上的表现。4) UrbanPlanText数据集:包含30,000多个指令对,用于监督微调LLM。

关键创新:论文的关键创新在于构建了一个专门针对城市规划领域的综合性基准UrbanPlanBench。该基准不仅包含丰富的知识内容,还设计了多种类型的评估任务,可以更全面地评估LLM在城市规划领域的表现。此外,论文还提供了大规模的监督微调数据集UrbanPlanText,可以用于提升LLM在城市规划任务上的性能。

关键设计:UrbanPlanBench的评估任务设计涵盖了城市规划的各个方面,包括规划原则、专业知识、管理法规等。UrbanPlanText数据集的构建采用了从城市规划考试和教科书中提取指令对的方法,保证了数据的质量和相关性。论文还提供了评估和微调工具集,方便研究人员使用。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,现有的LLM在城市规划知识掌握方面存在不平衡,尤其是在理解规划法规方面表现较差,70%的LLM表现不佳。经过UrbanPlanText数据集微调后,模型在记忆测试和知识理解方面有所提升,但在特定领域术语和推理方面仍有改进空间。

🎯 应用场景

该研究成果可应用于城市规划辅助设计、智能决策支持、规划方案评估等领域。通过将LLM集成到城市规划流程中,可以提高规划效率、优化规划方案,并为城市发展提供更科学的决策依据。未来,该研究有望推动城市规划领域的智能化转型。

📄 摘要(原文)

The advent of Large Language Models (LLMs) holds promise for revolutionizing various fields traditionally dominated by human expertise. Urban planning, a professional discipline that fundamentally shapes our daily surroundings, is one such field heavily relying on multifaceted domain knowledge and experience of human experts. The extent to which LLMs can assist human practitioners in urban planning remains largely unexplored. In this paper, we introduce a comprehensive benchmark, UrbanPlanBench, tailored to evaluate the efficacy of LLMs in urban planning, which encompasses fundamental principles, professional knowledge, and management and regulations, aligning closely with the qualifications expected of human planners. Through extensive evaluation, we reveal a significant imbalance in the acquisition of planning knowledge among LLMs, with even the most proficient models falling short of meeting professional standards. For instance, we observe that 70% of LLMs achieve subpar performance in understanding planning regulations compared to other aspects. Besides the benchmark, we present the largest-ever supervised fine-tuning (SFT) dataset, UrbanPlanText, comprising over 30,000 instruction pairs sourced from urban planning exams and textbooks. Our findings demonstrate that fine-tuned models exhibit enhanced performance in memorization tests and comprehension of urban planning knowledge, while there exists significant room for improvement, particularly in tasks requiring domain-specific terminology and reasoning. By making our benchmark, dataset, and associated evaluation and fine-tuning toolsets publicly available at https://github.com/tsinghua-fib-lab/PlanBench, we aim to catalyze the integration of LLMs into practical urban planning, fostering a symbiotic collaboration between human expertise and machine intelligence.