GeoBenchX: Benchmarking LLMs in Agent Solving Multistep Geospatial Tasks

📄 arXiv: 2503.18129v2 📥 PDF

作者: Varvara Krechetova, Denis Kochedykov

分类: cs.CL, cs.AI

发布日期: 2025-03-23 (更新: 2025-10-22)

备注: Github with code and benchmark set: https://github.com/Solirinai/GeoBenchX

🔗 代码/项目: GITHUB


💡 一句话要点

GeoBenchX:评估LLM在多步骤地理空间任务中Agent工具调用能力的基准

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 地理空间任务 工具调用 基准测试 LLM Agent GeoAI 评估框架

📋 核心要点

  1. 现有方法缺乏对LLM在复杂地理空间任务中工具调用能力的系统评估,难以指导实际应用。
  2. 论文提出GeoBenchX基准,通过构建多步骤地理空间任务,评估LLM驱动的Agent的工具调用能力。
  3. 实验结果表明,不同LLM在地理空间任务上表现差异显著,o4-mini和Claude 3.5 Sonnet表现最佳。

📝 摘要(中文)

本文建立了一个基准,用于评估大型语言模型(LLM)在与商业GIS从业者相关的多步骤地理空间任务中的工具调用能力。我们使用配备23个地理空间函数的简单工具调用Agent,评估了八个商业LLM(Claude Sonnet 3.5和4,Claude Haiku 3.5,Gemini 2.0 Flash,Gemini 2.5 Pro Preview,GPT-4o,GPT-4.1和o4-mini)。我们的基准包括四个复杂度递增的任务类别,包含可解决和故意不可解决的任务,以测试拒绝精度。我们开发了一个LLM-as-Judge评估框架,将Agent解决方案与参考解决方案进行比较。结果表明,o4-mini和Claude 3.5 Sonnet实现了最佳的整体性能,OpenAI的GPT-4.1、GPT-4o和Google的Gemini 2.5 Pro Preview紧随其后,但后两者在识别不可解决的任务方面更有效率。Claude Sonnet 4由于倾向于提供任何解决方案而不是拒绝任务,因此证明准确性较低。我们观察到Token使用量存在显著差异,Anthropic模型消耗的Token多于竞争对手。常见的错误包括误解几何关系、依赖过时知识和低效的数据操作。最终的基准集、评估框架和数据生成管道已作为开源资源发布(可在https://github.com/Solirinai/GeoBenchX获取),为持续评估LLM在GeoAI中的应用提供了一种更标准化的方法。

🔬 方法详解

问题定义:论文旨在解决如何系统性地评估大型语言模型(LLM)在解决复杂、多步骤地理空间任务中的能力。现有方法缺乏针对地理空间任务的标准化基准,难以有效评估LLM的工具调用能力,阻碍了LLM在地理信息系统(GIS)领域的应用。现有方法的痛点在于缺乏一个能够全面、客观地衡量LLM在处理地理空间数据、理解几何关系、执行空间分析等方面的能力的基准。

核心思路:论文的核心思路是构建一个包含多种难度级别、覆盖不同地理空间任务类型的基准数据集(GeoBenchX),并设计一个基于LLM的自动评估框架。通过让LLM驱动的Agent利用一系列地理空间工具解决这些任务,然后使用另一个LLM作为裁判(LLM-as-Judge)来评估Agent的解决方案的质量。这种方法能够模拟真实GIS应用场景,并提供一个客观、可重复的评估标准。

技术框架:GeoBenchX的整体框架包括以下几个主要组成部分: 1. 任务生成模块:负责生成包含可解决和不可解决的地理空间任务,任务分为四个复杂度递增的类别。 2. Agent模块:使用LLM作为核心,配备23个地理空间函数,负责调用工具解决任务。 3. LLM-as-Judge评估模块:使用另一个LLM作为裁判,将Agent的解决方案与参考解决方案进行比较,评估其准确性。 4. 基准数据集:包含各种地理空间任务,涵盖几何关系理解、空间分析、数据操作等。

关键创新:论文的关键创新在于: 1. GeoBenchX基准数据集:首次针对LLM在地理空间任务中的应用,构建了一个包含多种难度级别和任务类型的标准化基准。 2. LLM-as-Judge评估框架:提出了一种利用LLM自动评估Agent解决方案的方法,降低了人工评估的成本和主观性。 3. 可解与不可解任务混合:基准中包含故意设计的不可解任务,用于测试LLM的拒绝能力,更贴近实际应用场景。

关键设计: * 地理空间函数集:选择了23个常用的地理空间函数,涵盖了空间查询、几何计算、数据转换等。 * 任务难度分级:任务分为四个难度级别,从简单的空间查询到复杂的多步骤空间分析。 * LLM-as-Judge的Prompt设计:设计了详细的Prompt,指导LLM裁判如何评估Agent的解决方案,包括准确性、效率等方面。 * 评估指标:采用了多种评估指标,包括准确率、拒绝率、Token使用量等,全面衡量LLM在地理空间任务中的表现。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,o4-mini和Claude 3.5 Sonnet在GeoBenchX基准上取得了最佳的整体性能。OpenAI的GPT-4.1、GPT-4o和Google的Gemini 2.5 Pro Preview表现接近,但在识别不可解决任务方面,Gemini 2.5 Pro Preview更有效率。Claude Sonnet 4由于倾向于提供任何解决方案而非拒绝任务,准确性较低。Anthropic模型消耗的Token数量明显高于其他模型。

🎯 应用场景

该研究成果可广泛应用于地理信息系统(GIS)、城市规划、环境监测、灾害管理等领域。通过GeoBenchX基准,可以更有效地选择和优化LLM在地理空间任务中的应用,提升GIS系统的智能化水平,辅助决策,并加速GeoAI技术的发展。

📄 摘要(原文)

This paper establishes a benchmark for evaluating tool-calling capabilities of large language models (LLMs) on multi-step geospatial tasks relevant to commercial GIS practitioners. We assess eight commercial LLMs (Claude Sonnet 3.5 and 4, Claude Haiku 3.5, Gemini 2.0 Flash, Gemini 2.5 Pro Preview, GPT-4o, GPT-4.1 and o4-mini) using a simple tool-calling agent equipped with 23 geospatial functions. Our benchmark comprises tasks in four categories of increasing complexity, with both solvable and intentionally unsolvable tasks to test rejection accuracy. We develop a LLM-as-Judge evaluation framework to compare agent solutions against reference solutions. Results show o4-mini and Claude 3.5 Sonnet achieve the best overall performance, OpenAI's GPT-4.1, GPT-4o and Google's Gemini 2.5 Pro Preview do not fall far behind, but the last two are more efficient in identifying unsolvable tasks. Claude Sonnet 4, due its preference to provide any solution rather than reject a task, proved to be less accurate. We observe significant differences in token usage, with Anthropic models consuming more tokens than competitors. Common errors include misunderstanding geometrical relationships, relying on outdated knowledge, and inefficient data manipulation. The resulting benchmark set, evaluation framework, and data generation pipeline are released as open-source resources (available at https://github.com/Solirinai/GeoBenchX), providing one more standardized method for the ongoing evaluation of LLMs for GeoAI.