GeoAnalystBench: A GeoAI benchmark for assessing large language models for spatial analysis workflow and code generation
作者: Qianheng Zhang, Song Gao, Chen Wei, Yibo Zhao, Ying Nie, Ziru Chen, Shijie Chen, Yu Su, Huan Sun
分类: cs.SE, cs.AI
发布日期: 2025-09-07
备注: 34 pages, 8 figures
期刊: Transactions in GIS, 2025
💡 一句话要点
GeoAnalystBench:评估大语言模型在空间分析工作流和代码生成方面的GeoAI基准
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 地理空间分析 大语言模型 GeoAI 基准测试 代码生成
📋 核心要点
- 现有方法难以系统评估大语言模型在地理空间分析任务中的能力,缺乏统一的评测基准。
- 提出GeoAnalystBench,包含50个基于Python的地理空间分析任务,并由GIS专家验证,确保任务的真实性和有效性。
- 实验结果表明,商业模型在工作流有效性和代码质量方面优于开源模型,但在空间推理方面仍面临挑战。
📝 摘要(中文)
本文提出了GeoAnalystBench,一个用于评估大语言模型(LLMs)在地理空间分析和GIS工作流自动化能力的基准。该基准包含50个基于Python的任务,这些任务源于真实世界的地理空间问题,并经过GIS专家的仔细验证。每个任务都配有一个最小可交付产品,评估涵盖工作流有效性、结构对齐、语义相似性和代码质量(CodeBLEU)。通过该基准,评估了商业和开源模型。结果表明,商业模型如ChatGPT-4o-mini实现了95%的高有效性和更强的代码对齐(CodeBLEU 0.39),而较小的开源模型如DeepSeek-R1-7B经常生成不完整或不一致的工作流(48.5%有效性,0.272 CodeBLEU)。需要更深层次空间推理的任务,如空间关系检测或最佳选址,对所有模型来说仍然最具挑战性。这些发现展示了当前LLM在GIS自动化方面的潜力和局限性,并提供了一个可复现的框架,以促进在人机协作支持下的GeoAI研究。
🔬 方法详解
问题定义:当前,虽然大语言模型(LLMs)在自动化地理空间分析和GIS工作流方面展现出潜力,但缺乏对其能力的严格评估。现有方法难以量化LLMs在处理复杂地理空间问题时的性能,尤其是在工作流的有效性、代码质量和空间推理能力方面。因此,需要一个标准化的基准来评估LLMs在GeoAI领域的实际能力,并识别其局限性。
核心思路:GeoAnalystBench的核心思路是构建一个包含多样化、真实地理空间分析任务的基准,并设计全面的评估指标。通过让LLMs解决这些任务,并根据预定义的标准进行评估,可以客观地了解LLMs在GIS自动化方面的能力。该基准旨在促进GeoAI研究,并为未来的模型开发提供指导。
技术框架:GeoAnalystBench的技术框架主要包括以下几个部分:1) 任务收集与构建:从真实世界的地理空间问题中提取任务,并将其转化为基于Python的代码生成问题。2) 数据准备:为每个任务准备必要的数据集,并确保数据的质量和一致性。3) 专家验证:由GIS专家对任务的有效性和可行性进行验证。4) 评估指标:设计用于评估工作流有效性、结构对齐、语义相似性和代码质量(CodeBLEU)的指标。5) 模型评估:使用基准评估不同的LLMs,并分析其性能。
关键创新:GeoAnalystBench的关键创新在于其任务的真实性和评估的全面性。该基准的任务源于真实世界的地理空间问题,并经过GIS专家的验证,确保了任务的实际意义。此外,该基准还采用了多种评估指标,从不同角度评估LLMs的性能,从而提供了更全面的评估结果。
关键设计:GeoAnalystBench的关键设计包括:1) 任务的多样性:基准包含50个不同的任务,涵盖了各种地理空间分析场景。2) 评估指标的权重:根据不同指标的重要性,分配不同的权重,以更准确地反映LLMs的整体性能。3) 可复现性:基准的设计注重可复现性,允许研究人员使用相同的任务和评估指标来评估不同的模型。
🖼️ 关键图片
📊 实验亮点
实验结果表明,商业模型如ChatGPT-4o-mini在工作流有效性(95%)和代码对齐(CodeBLEU 0.39)方面优于开源模型,而较小的开源模型如DeepSeek-R1-7B的工作流有效性仅为48.5%,CodeBLEU为0.272。所有模型在需要更深层次空间推理的任务中表现均不佳,表明当前LLM在复杂空间分析方面仍有提升空间。
🎯 应用场景
该研究成果可应用于自动化GIS工作流、智能城市规划、环境监测、灾害管理等领域。通过评估和改进大语言模型在地理空间分析方面的能力,可以提高GIS分析的效率和准确性,为决策者提供更可靠的依据,并加速GeoAI技术在各行业的应用。
📄 摘要(原文)
Recent advances in large language models (LLMs) have fueled growing interest in automating geospatial analysis and GIS workflows, yet their actual capabilities remain uncertain. In this work, we call for rigorous evaluation of LLMs on well-defined geoprocessing tasks before making claims about full GIS automation. To this end, we present GeoAnalystBench, a benchmark of 50 Python-based tasks derived from real-world geospatial problems and carefully validated by GIS experts. Each task is paired with a minimum deliverable product, and evaluation covers workflow validity, structural alignment, semantic similarity, and code quality (CodeBLEU). Using this benchmark, we assess both proprietary and open source models. Results reveal a clear gap: proprietary models such as ChatGPT-4o-mini achieve high validity 95% and stronger code alignment (CodeBLEU 0.39), while smaller open source models like DeepSeek-R1-7B often generate incomplete or inconsistent workflows (48.5% validity, 0.272 CodeBLEU). Tasks requiring deeper spatial reasoning, such as spatial relationship detection or optimal site selection, remain the most challenging across all models. These findings demonstrate both the promise and limitations of current LLMs in GIS automation and provide a reproducible framework to advance GeoAI research with human-in-the-loop support.