GeoSQL-Eval: First Evaluation of LLMs on PostGIS-Based NL2GeoSQL Queries

作者: Shuyang Hou, Haoyue Jiao, Ziqi Liu, Lutong Xie, Guanyu Chen, Shaowen Wu, Xuefeng Guan, Huayi Wu

分类: cs.DB, cs.AI, cs.LG, cs.SE

发布日期: 2025-09-28 (更新: 2025-10-02)

💡 一句话要点

提出GeoSQL-Eval，首次系统评估LLMs在PostGIS上的NL2GeoSQL查询能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自然语言到SQL GeoSQL 大型语言模型 评估框架 地理信息系统

📋 核心要点

现有NL2SQL基准测试主要关注通用SQL，缺乏对GeoSQL中空间数据类型和函数的系统评估。
提出GeoSQL-Eval和GeoSQL-Bench，构建端到端的自动化评估框架和基准，用于评估LLM在NL2GeoSQL任务中的性能。
评估了24个代表性模型，揭示了性能差异、常见错误模式和资源使用情况，并发布了公共排行榜。

📝 摘要（中文）

大型语言模型(LLMs)在通用数据库的自然语言到SQL(NL2SQL)任务中表现出强大的性能。然而，扩展到GeoSQL引入了空间数据类型、函数调用和坐标系带来的额外复杂性，极大地增加了生成和执行的难度。现有的基准测试主要针对通用SQL，仍然缺乏针对GeoSQL的系统评估框架。为了填补这一空白，我们提出了GeoSQL-Eval，这是第一个用于PostGIS查询生成的端到端自动化评估框架，以及GeoSQL-Bench，一个用于评估LLM在NL2GeoSQL任务中性能的基准。GeoSQL-Bench定义了三个任务类别——概念理解、语法级SQL生成和模式检索——包含14,178个实例、340个PostGIS函数和82个主题数据库。GeoSQL-Eval基于Webb的知识深度(DOK)模型，涵盖四个认知维度、五个能力级别和二十个任务类型，以建立一个从知识获取和语法生成到语义对齐、执行准确性和鲁棒性的全面过程。我们评估了六个类别中的24个代表性模型，并应用熵权法进行统计分析，以揭示性能差异、常见错误模式和资源使用情况。最后，我们发布了一个公共的GeoSQL-Eval排行榜平台，用于持续测试和全球比较。这项工作扩展了NL2GeoSQL范式，并为评估空间数据库环境中的LLM提供了一个标准化、可解释和可扩展的框架，为地理空间信息科学和相关应用提供了有价值的参考。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLMs）在处理基于PostGIS的NL2GeoSQL查询时缺乏系统评估的问题。现有NL2SQL基准测试无法充分评估LLMs在处理空间数据类型、函数调用和坐标系等GeoSQL特有复杂性时的能力。这导致难以准确衡量和比较不同LLMs在地理空间领域的性能。

核心思路：论文的核心思路是构建一个端到端的自动化评估框架GeoSQL-Eval，并配合一个专门设计的基准测试集GeoSQL-Bench。GeoSQL-Eval基于Webb的知识深度(DOK)模型，从多个认知维度和能力级别对LLMs进行全面评估。GeoSQL-Bench则提供了丰富的GeoSQL查询实例，覆盖了概念理解、语法生成和模式检索等多个任务。

技术框架：GeoSQL-Eval框架主要包含以下几个阶段：1) 知识获取：评估LLM对地理空间概念的理解能力；2) 语法生成：评估LLM生成正确GeoSQL语法的能力；3) 语义对齐：评估LLM理解自然语言查询意图并将其转化为正确GeoSQL查询的能力；4) 执行准确性：评估LLM生成的GeoSQL查询在PostGIS数据库上的执行结果是否正确；5) 鲁棒性：评估LLM在面对噪声或歧义输入时的表现。GeoSQL-Bench基准测试集包含14,178个实例，340个PostGIS函数和82个主题数据库。

关键创新：该论文的关键创新在于首次提出了针对GeoSQL的端到端自动化评估框架GeoSQL-Eval和基准测试集GeoSQL-Bench。与现有NL2SQL评估方法相比，GeoSQL-Eval更加关注GeoSQL特有的复杂性，例如空间数据类型和函数调用。此外，GeoSQL-Eval基于DOK模型，从多个认知维度和能力级别对LLMs进行全面评估，提供了更细粒度的性能分析。

关键设计：GeoSQL-Eval的关键设计包括：1) 基于DOK模型的评估指标体系，涵盖四个认知维度、五个能力级别和二十个任务类型；2) GeoSQL-Bench基准测试集，包含丰富的GeoSQL查询实例，覆盖了概念理解、语法生成和模式检索等多个任务；3) 熵权法，用于对不同评估指标进行加权，从而更准确地反映LLMs的整体性能；4) 公共排行榜平台，用于持续测试和全球比较。

📊 实验亮点

论文评估了24个代表性模型，揭示了它们在GeoSQL任务中的性能差异和常见错误模式。通过熵权法进行统计分析，发现不同模型在概念理解、语法生成和语义对齐等方面存在显著差异。此外，论文还发布了一个公共的GeoSQL-Eval排行榜平台，为持续测试和全球比较提供了便利。

🎯 应用场景

该研究成果可广泛应用于地理信息系统、城市规划、环境监测、交通管理等领域。通过GeoSQL-Eval，可以更有效地评估和选择适用于特定地理空间任务的LLMs，从而提高地理空间数据处理和分析的效率和准确性。未来，该框架可以扩展到支持更多空间数据库和地理空间应用。

📄 摘要（原文）

Large language models (LLMs) have shown strong performance in natural language to SQL (NL2SQL) tasks within general databases. However, extending to GeoSQL introduces additional complexity from spatial data types, function invocation, and coordinate systems, which greatly increases generation and execution difficulty. Existing benchmarks mainly target general SQL, and a systematic evaluation framework for GeoSQL is still lacking. To fill this gap, we present GeoSQL-Eval, the first end-to-end automated evaluation framework for PostGIS query generation, together with GeoSQL-Bench, a benchmark for assessing LLM performance in NL2GeoSQL tasks. GeoSQL-Bench defines three task categories-conceptual understanding, syntax-level SQL generation, and schema retrieval-comprising 14,178 instances, 340 PostGIS functions, and 82 thematic databases. GeoSQL-Eval is grounded in Webb's Depth of Knowledge (DOK) model, covering four cognitive dimensions, five capability levels, and twenty task types to establish a comprehensive process from knowledge acquisition and syntax generation to semantic alignment, execution accuracy, and robustness. We evaluate 24 representative models across six categories and apply the entropy weight method with statistical analyses to uncover performance differences, common error patterns, and resource usage. Finally, we release a public GeoSQL-Eval leaderboard platform for continuous testing and global comparison. This work extends the NL2GeoSQL paradigm and provides a standardized, interpretable, and extensible framework for evaluating LLMs in spatial database contexts, offering valuable references for geospatial information science and related applications.

GeoSQL-Eval: First Evaluation of LLMs on PostGIS-Based NL2GeoSQL Queries

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理