GeoAgentBench: A Dynamic Execution Benchmark for Tool-Augmented Agents in Spatial Analysis
作者: Bo Yu, Cheng Yang, Dongyang Hou, Chengfu Liu, Jiayao Liu, Chi Wang, Zhiming Zhang, Haifeng Li, Wentao Yang
分类: cs.AI
发布日期: 2026-04-15
备注: 20 pages, 3 figures, 6 tables
💡 一句话要点
GeoAgentBench:用于空间分析中工具增强型Agent的动态执行基准测试
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 地理信息系统 大型语言模型 Agent 动态执行 空间分析 基准测试 视觉-语言模型
📋 核心要点
- 现有GIS Agent评估benchmark主要依赖静态文本或代码匹配,忽略了动态运行时反馈和空间输出的多模态特性。
- 论文提出GeoAgentBench,一个动态交互式评估基准,通过集成原子GIS工具和设计新指标来解决上述问题。
- 实验表明,提出的Plan-and-React架构显著优于传统框架,尤其在多步骤推理和错误恢复方面表现突出。
📝 摘要(中文)
本文提出了GeoAgentBench (GABench),一个为工具增强型地理信息系统(GIS) Agent设计的动态交互式评估基准。GABench提供了一个真实的执行沙箱,集成了117个原子GIS工具,涵盖6个核心GIS领域的53个典型空间分析任务。论文设计了参数执行精度(PEA)指标,利用“最后尝试对齐”策略来量化隐式参数推断的准确性。此外,还提出了基于视觉-语言模型(VLM)的验证方法,以评估数据空间精度和制图风格的符合性。为了解决参数错位和运行时异常导致的频繁任务失败,开发了一种新型Agent架构Plan-and-React,通过将全局编排与逐步反应式执行分离,模拟专家认知工作流程。大量实验表明,Plan-and-React范式显著优于传统框架,在多步骤推理和错误恢复方面实现了逻辑严谨性和执行鲁棒性之间的最佳平衡。研究结果突出了当前的能力边界,并为评估和推进下一代自主GeoAI建立了一个可靠的标准。
🔬 方法详解
问题定义:现有基于LLM的GIS Agent评估方法主要依赖于静态的文本或代码匹配,无法充分评估Agent在动态GIS环境中的实际执行能力。尤其是在多步骤空间分析任务中,Agent需要根据运行时反馈调整参数和策略,而现有benchmark难以捕捉这种动态交互过程。此外,现有方法也忽略了空间输出的多模态特性,例如地图的视觉质量和空间数据的准确性。
核心思路:论文的核心思路是构建一个真实的GIS执行环境,允许Agent在其中动态地执行空间分析任务,并根据执行结果进行评估。通过集成大量的原子GIS工具,模拟真实的空间分析流程。同时,设计新的评估指标,例如参数执行精度(PEA)和基于视觉-语言模型的验证方法,来全面评估Agent的性能。此外,还提出了Plan-and-React架构,以提高Agent在复杂任务中的鲁棒性和错误恢复能力。
技术框架:GeoAgentBench包含以下几个主要组成部分:1) 一个包含117个原子GIS工具的执行沙箱;2) 一个包含53个典型空间分析任务的benchmark;3) 参数执行精度(PEA)指标,用于评估Agent的参数推断能力;4) 基于视觉-语言模型的验证方法,用于评估空间数据精度和制图风格;5) Plan-and-React Agent架构,用于提高Agent的鲁棒性和错误恢复能力。整体流程是,Agent接收任务描述,生成执行计划,然后在执行沙箱中执行计划,最后根据PEA指标和视觉-语言模型进行评估。
关键创新:论文的关键创新在于:1) 提出了一个动态交互式的GIS Agent评估基准GeoAgentBench,弥补了现有benchmark的不足;2) 设计了参数执行精度(PEA)指标,能够更准确地评估Agent的参数推断能力;3) 提出了基于视觉-语言模型的验证方法,能够评估空间数据精度和制图风格;4) 开发了Plan-and-React Agent架构,通过将全局编排与逐步反应式执行分离,提高了Agent在复杂任务中的鲁棒性和错误恢复能力。
关键设计:Plan-and-React架构的关键设计在于将任务分解为全局规划和局部执行两个阶段。全局规划阶段负责生成任务的整体执行计划,而局部执行阶段则负责根据运行时反馈逐步执行计划中的每个步骤。在局部执行阶段,Agent会根据当前状态和执行结果调整参数和策略,以提高执行成功率。PEA指标的关键设计在于使用“最后尝试对齐”策略,即只考虑Agent最后一次尝试的参数是否与正确参数对齐,从而更准确地评估Agent的参数推断能力。视觉-语言模型验证的关键设计在于使用预训练的VLM模型来评估地图的视觉质量和空间数据的准确性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,提出的Plan-and-React架构在GeoAgentBench上显著优于传统的Agent框架。具体来说,Plan-and-React架构在多步骤推理和错误恢复方面表现出更强的鲁棒性,能够更有效地解决参数错位和运行时异常导致的任务失败。实验还揭示了当前LLM在处理复杂空间分析任务时的能力边界,为未来的研究方向提供了指导。
🎯 应用场景
该研究成果可应用于开发更智能、更自主的地理信息系统。例如,可以利用该benchmark来评估和改进自动驾驶汽车的导航系统,或者开发能够自动进行城市规划和资源管理的智能系统。此外,该研究还可以促进GeoAI领域的发展,推动地理空间分析技术的创新。
📄 摘要(原文)
The integration of Large Language Models (LLMs) into Geographic Information Systems (GIS) marks a paradigm shift toward autonomous spatial analysis. However, evaluating these LLM-based agents remains challenging due to the complex, multi-step nature of geospatial workflows. Existing benchmarks primarily rely on static text or code matching, neglecting dynamic runtime feedback and the multimodal nature of spatial outputs. To address this gap, we introduce GeoAgentBench (GABench), a dynamic and interactive evaluation benchmark tailored for tool-augmented GIS agents. GABench provides a realistic execution sandbox integrating 117 atomic GIS tools, encompassing 53 typical spatial analysis tasks across 6 core GIS domains. Recognizing that precise parameter configuration is the primary determinant of execution success in dynamic GIS environments, we designed the Parameter Execution Accuracy (PEA) metric, which utilizes a "Last-Attempt Alignment" strategy to quantify the fidelity of implicit parameter inference. Complementing this, a Vision-Language Model (VLM) based verification is proposed to assess data-spatial accuracy and cartographic style adherence. Furthermore, to address the frequent task failures caused by parameter misalignments and runtime anomalies, we developed a novel agent architecture, Plan-and-React, that mimics expert cognitive workflows by decoupling global orchestration from step-wise reactive execution. Extensive experiments with seven representative LLMs demonstrate that the Plan-and-React paradigm significantly outperforms traditional frameworks, achieving the optimal balance between logical rigor and execution robustness, particularly in multi-step reasoning and error recovery. Our findings highlight current capability boundaries and establish a robust standard for assessing and advancing the next generation of autonomous GeoAI.