PlanBench-V: A Spatial Planning Map Benchmark for Vision-Language Models

📄 arXiv: 2606.05744v1 📥 PDF

作者: Minxin Chen, He Zhu, Junyou Su, Wen Wang, Yijie Deng, Wenjia Zhang

分类: cs.CL

发布日期: 2026-06-04


💡 一句话要点

提出PlanBench-V以解决空间规划图解释的评估问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 空间规划 视觉-语言模型 多模态评估 认知过程 城市规划

📋 核心要点

  1. 现有多模态基准主要针对一般视觉理解,忽视了规划实践中的领域特定认知过程,导致空间规划图的解释能力不足。
  2. 本文提出PlanBench-V基准,通过构建专家注释的空间规划图数据库,评估视觉-语言模型在空间规划图解释中的能力。
  3. 实验结果表明,尽管新模型在性能上有所提升,但在需要评估判断和政策敏感性的实施任务上仍存在明显局限。

📝 摘要(中文)

空间规划图在区域治理中至关重要,将规划目标、法规和空间策略转化为视觉形式以支持决策。然而,其解释需要细致的视觉感知、空间推理和政策知情的专业判断,这对人类学习者和AI系统都是重大挑战。为填补现有多模态基准在城市规划分析中的空白,本文提出了PlanBench-V,这是第一个全面评估视觉-语言模型在空间规划图解释能力的基准。我们构建了空间规划图数据库(SPMD),包含223幅规划图和1629对问答,经过专业规划师注释,涵盖多样的地理区域和制图风格。我们提出了一个理论驱动的评估框架,评估感知、推理、关联和实施四个能力,反映规划图解释的认知流程。实验结果显示,尽管2026年模型Qwen3.6-Plus在性能上显著优于2025年模型GPT-4o,但所有模型在实施导向任务上仍面临挑战。

🔬 方法详解

问题定义:本文旨在解决现有视觉-语言模型在空间规划图解释中的评估不足,尤其是在领域特定的认知过程方面存在的挑战。

核心思路:通过构建一个专家注释的空间规划图数据库,并提出一个理论驱动的评估框架,来系统性地评估模型在规划图解释中的能力。

技术框架:整体架构包括空间规划图数据库的构建、问答对的生成,以及基于感知、推理、关联和实施四个能力的评估模块。

关键创新:最重要的创新在于提出了一个专门针对空间规划图解释的评估框架,填补了现有多模态基准的空白,强调了领域适应性推理的重要性。

关键设计:在数据集构建中,采用了专业规划师的注释,确保了数据的高质量;评估框架中设计了针对不同能力的评估指标,以全面反映模型的表现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,Qwen3.6-Plus模型在空间规划图解释任务中相较于GPT-4o模型提升了27%的性能。然而,所有模型在实施导向任务上仍表现不佳,揭示了当前模型在专业规划环境中的基本局限性。

🎯 应用场景

该研究的潜在应用领域包括城市规划、区域治理和公共政策分析。通过提升视觉-语言模型在空间规划图解释中的能力,可以更好地支持决策制定和公众沟通,促进智能城市的发展。

📄 摘要(原文)

Spatial planning maps are central to territorial governance, translating planning objectives, regulations, and spatial strategies into visual forms for decision-making, public communication, and institutional coordination. Their interpretation, however, requires fine-grained visual perception, spatial reasoning, and policy-informed professional judgment, creating major challenges for both human learners and AI systems. With the rapid progress of Vision-Language Models (VLMs), their use in urban planning analysis is gaining attention, yet existing multimodal benchmarks mainly target general visual understanding and overlook the domain-specific cognitive processes of planning practice. To address this gap, we introduce PlanBench-V, the first comprehensive benchmark for evaluating VLMs in spatial planning map interpretation. We first build the Spatial Planning Map Database (SPMD), an expert-annotated dataset of 223 planning maps and 1629 question-answer pairs curated by professional planners, covering diverse geographic regions and cartographic styles. We then propose a theory-informed evaluation framework assessing four progressive capabilities: Perception, Reasoning, Association, and Implementation, corresponding to the cognitive pipeline of planning map interpretation. Extensive experiments across two generations of VLMs show clear progress but persistent limitations. The best 2026 agentic reasoning model, Qwen3.6-Plus, substantially outperforms the best 2025 model, GPT-4o, by 27%. Nevertheless, all models still struggle with implementation-oriented tasks requiring evaluative judgment, policy sensitivity, and constraint-aware decision-making. These findings reveal fundamental limitations of current VLMs in professional planning contexts and highlight the need for domain-adaptive multimodal reasoning frameworks. Code and data are available at https://plangpt.github.io.