Benchmarking Large Language Models for Geolocating Colonial Virginia Land Grants

📄 arXiv: 2508.08266v1 📥 PDF

作者: Ryan Mioduski

分类: cs.LG, cs.AI, cs.CL, cs.CV, cs.IR

发布日期: 2025-07-27


💡 一句话要点

利用大语言模型对殖民时期弗吉尼亚土地授权进行地理定位

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 地理定位 历史文档 自然语言处理 空间分析

📋 核心要点

  1. 十七、十八世纪弗吉尼亚土地授权主要以叙述性描述存在,限制了空间分析,亟需自动地理定位方法。
  2. 利用大语言模型直接生成坐标或结合外部地理编码API,将文本描述转换为经纬度坐标。
  3. 实验表明,特定LLM在地理定位精度上优于传统GIS分析师和地理分析器,且成本效益显著。

📝 摘要(中文)

本研究系统性地评估了当前一代大语言模型(LLM)在将弗吉尼亚州17和18世纪土地专利的叙述性描述转换为地理上精确的经纬度坐标方面的能力。该研究发布了一个包含5471份弗吉尼亚专利摘要(1695-1732)的数字化语料库,并使用43个经过严格验证的测试用例作为初始的、地理上集中的基准。在两种范式下测试了六个OpenAI模型,涵盖三种架构(o-series、GPT-4-class和GPT-3.5):直接到坐标和工具增强的思维链,调用外部地理编码API。将结果与GIS分析师基线、Stanford NER地理分析器、Mordecai-3和一个县中心启发式方法进行了比较。结果表明,LLM在历史地理参考方面具有可扩展性、准确性和成本效益的潜力。

🔬 方法详解

问题定义:该论文旨在解决历史文档地理定位的问题,具体来说,是将殖民时期弗吉尼亚土地授权的文本描述转换为精确的经纬度坐标。现有方法,如人工GIS分析和传统地理分析器,效率低、成本高,且精度有限。

核心思路:论文的核心思路是利用大语言模型(LLM)的强大文本理解和生成能力,直接从土地授权的文本描述中提取地理信息,并将其转换为坐标。同时,探索了工具增强的思维链方法,即利用LLM调用外部地理编码API来辅助地理定位。

技术框架:整体框架包括以下几个阶段:1) 数据准备:构建包含5471份弗吉尼亚专利摘要的数字化语料库,并人工验证43个测试用例。2) 模型选择:选择OpenAI的六个LLM模型,涵盖三种架构。3) 范式设计:设计两种范式,直接到坐标和工具增强的思维链。4) 评估:将LLM的结果与GIS分析师、Stanford NER地理分析器、Mordecai-3和一个县中心启发式方法进行比较。

关键创新:该研究的关键创新在于首次系统性地评估了LLM在历史文档地理定位方面的潜力,并证明了LLM在精度和效率上优于传统方法。此外,研究还探索了工具增强的思维链方法,并分析了不同LLM架构和范式对地理定位性能的影响。

关键设计:研究中涉及的关键设计包括:1) 模型选择:选择了不同架构和规模的LLM,以评估其性能差异。2) 范式设计:设计了直接到坐标和工具增强的思维链两种范式,以探索不同方法的优缺点。3) 评估指标:使用平均误差和中位数误差作为评估指标,以衡量地理定位的精度。4) 消融实验:进行了专利权人姓名编辑的消融实验,以评估模型对文本中地标和邻近描述的依赖程度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,最佳单次调用模型o3-2025-04-16的平均误差为23公里(中位数14公里),优于中位数LLM(37.4公里)37.5%,优于最弱LLM(50.3公里)53.5%,优于外部基线67%(GIS分析师)和70%(Stanford NER)。五次调用集成进一步将误差降低到19公里(中位数12公里),成本仅增加约0.20美元/授权。

🎯 应用场景

该研究成果可应用于历史地理信息系统构建、历史地图绘制、考古遗址定位、土地资源管理等领域。通过自动化地理定位过程,可以大幅提高历史文档的利用效率,为历史研究提供更精确的空间信息,并为相关领域的决策提供支持。未来,该方法可推广到其他历史文档和地理区域。

📄 摘要(原文)

Virginia's seventeenth- and eighteenth-century land patents survive primarily as narrative metes-and-bounds descriptions, limiting spatial analysis. This study systematically evaluates current-generation large language models (LLMs) in converting these prose abstracts into geographically accurate latitude/longitude coordinates within a focused evaluation context. A digitized corpus of 5,471 Virginia patent abstracts (1695-1732) is released, with 43 rigorously verified test cases serving as an initial, geographically focused benchmark. Six OpenAI models across three architectures (o-series, GPT-4-class, and GPT-3.5) were tested under two paradigms: direct-to-coordinate and tool-augmented chain-of-thought invoking external geocoding APIs. Results were compared with a GIS-analyst baseline, the Stanford NER geoparser, Mordecai-3, and a county-centroid heuristic. The top single-call model, o3-2025-04-16, achieved a mean error of 23 km (median 14 km), outperforming the median LLM (37.4 km) by 37.5%, the weakest LLM (50.3 km) by 53.5%, and external baselines by 67% (GIS analyst) and 70% (Stanford NER). A five-call ensemble further reduced errors to 19 km (median 12 km) at minimal additional cost (approx. USD 0.20 per grant), outperforming the median LLM by 48.6%. A patentee-name-redaction ablation increased error by about 9%, indicating reliance on textual landmark and adjacency descriptions rather than memorization. The cost-efficient gpt-4o-2024-08-06 model maintained a 28 km mean error at USD 1.09 per 1,000 grants, establishing a strong cost-accuracy benchmark; external geocoding tools offered no measurable benefit in this evaluation. These findings demonstrate the potential of LLMs for scalable, accurate, and cost-effective historical georeferencing.