Can a Large Language Model Assess Urban Design Quality? Evaluating Walkability Metrics Across Expertise Levels

📄 arXiv: 2504.21040v1 📥 PDF

作者: Chenyi Cai, Kosuke Kuriyama, Youlong Gu, Filip Biljecki, Pieter Herthogs

分类: cs.CV

发布日期: 2025-04-28


💡 一句话要点

利用大语言模型评估城市设计质量:基于不同专业知识水平的可步行性指标分析

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 城市设计 可步行性 大语言模型 街景图像 多模态学习

📋 核心要点

  1. 现有城市设计质量评估方法依赖人工或传统算法,效率低且难以处理大规模街景数据。
  2. 该论文提出利用多模态大语言模型(MLLM)结合专家知识,自动评估城市环境的可步行性。
  3. 实验表明,MLLM在一定程度上能够评估可步行性,但整合专家知识后,评估结果的一致性和准确性显著提高。

📝 摘要(中文)

城市街道环境对于支持公共空间的人类活动至关重要。街景图像(SVI)等大数据与多模态大语言模型(MLLM)的结合,正在改变研究人员和实践者调查、测量和评估城市环境语义和视觉元素的方式。考虑到使用MLLM创建自动化评估工作流程的低门槛,探索这些概率模型相关的风险和机遇至关重要。特别是,专家知识的整合在多大程度上能够影响MLLM评估城市设计质量的性能尚未得到充分探索。本研究初步探索了如何将更正式和结构化的专家城市设计知识表示整合到MLLM(ChatGPT-4)的输入提示中,从而提高模型在使用SVI评估建成环境可步行性方面的能力和可靠性。我们从现有文献中收集可步行性指标,并使用相关的本体对其进行分类。然后,我们选择这些指标的一个子集,重点关注行人安全和吸引力这两个子主题,并相应地为MLLM开发提示。我们分析了MLLM通过具有不同清晰度和关于评估标准的具体性的提示来评估SVI可步行性子主题的能力。我们的实验表明,MLLM能够基于一般知识提供评估和解释,并可以支持多模态图像-文本评估的自动化。然而,它们通常提供更乐观的分数,并且在解释提供的指标时可能会犯错误,从而导致不正确的评估。通过整合专家知识,MLLM的评估性能表现出更高的连贯性和集中性。

🔬 方法详解

问题定义:论文旨在解决城市设计质量评估中效率和准确性的问题。现有方法,如人工评估或基于传统计算机视觉算法的评估,耗时耗力,且难以捕捉城市环境的复杂语义信息。此外,如何有效利用大规模街景图像数据进行城市设计评估也是一个挑战。

核心思路:论文的核心思路是利用多模态大语言模型(MLLM)的强大语义理解和推理能力,结合专家知识,实现对城市环境可步行性的自动评估。通过将专家知识融入到MLLM的输入提示中,引导模型更准确地理解和评估街景图像中的相关特征。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 从现有文献中收集可步行性指标,并使用本体进行分类;2) 选择行人安全和吸引力作为可步行性的子主题;3) 基于选定的子主题,设计不同清晰度和具体性的提示,输入到MLLM(ChatGPT-4)中;4) MLLM根据提示和街景图像进行评估,并输出评估结果;5) 分析MLLM在不同提示下的评估结果,并评估专家知识整合对评估性能的影响。

关键创新:该论文的关键创新在于将专家知识融入到MLLM的输入提示中,从而提高了MLLM在城市设计质量评估方面的性能。这种方法不仅利用了MLLM的强大能力,还通过专家知识的引导,避免了模型在评估过程中出现偏差或错误。

关键设计:论文的关键设计包括:1) 可步行性指标的选取和分类,确保评估的全面性和准确性;2) 提示的设计,通过不同清晰度和具体性的提示,探索专家知识对MLLM评估性能的影响;3) 实验设计,通过对比不同提示下的评估结果,量化专家知识整合带来的提升。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MLLM在一定程度上能够评估街景图像的可步行性,但评估结果偏乐观,且容易出错。通过整合专家知识,MLLM的评估性能表现出更高的连贯性和集中性,表明专家知识能够有效提升MLLM在城市设计质量评估方面的能力。具体性能提升数据未知。

🎯 应用场景

该研究成果可应用于城市规划、城市设计、公共健康等领域。通过自动评估城市环境的可步行性,可以为城市规划者提供决策支持,优化城市设计,改善居民的出行体验和健康水平。未来,该方法还可以扩展到其他城市设计质量的评估,例如安全性、宜居性等。

📄 摘要(原文)

Urban street environments are vital to supporting human activity in public spaces. The emergence of big data, such as street view images (SVIs) combined with multimodal large language models (MLLMs), is transforming how researchers and practitioners investigate, measure, and evaluate semantic and visual elements of urban environments. Considering the low threshold for creating automated evaluative workflows using MLLMs, it is crucial to explore both the risks and opportunities associated with these probabilistic models. In particular, the extent to which the integration of expert knowledge can influence the performance of MLLMs in evaluating the quality of urban design has not been fully explored. This study sets out an initial exploration of how integrating more formal and structured representations of expert urban design knowledge into the input prompts of an MLLM (ChatGPT-4) can enhance the model's capability and reliability in evaluating the walkability of built environments using SVIs. We collect walkability metrics from the existing literature and categorize them using relevant ontologies. We then select a subset of these metrics, focusing on the subthemes of pedestrian safety and attractiveness, and develop prompts for the MLLM accordingly. We analyze the MLLM's ability to evaluate SVI walkability subthemes through prompts with varying levels of clarity and specificity regarding evaluation criteria. Our experiments demonstrate that MLLMs are capable of providing assessments and interpretations based on general knowledge and can support the automation of multimodal image-text evaluations. However, they generally provide more optimistic scores and can make mistakes when interpreting the provided metrics, resulting in incorrect evaluations. By integrating expert knowledge, the MLLM's evaluative performance exhibits higher consistency and concentration.