Mitigating Geospatial Knowledge Hallucination in Large Language Models: Benchmarking and Dynamic Factuality Aligning

📄 arXiv: 2507.19586v1 📥 PDF

作者: Shengyuan Wang, Jie Feng, Tianhui Liu, Dan Pei, Yong Li

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-07-25

备注: 19 pages, 9 figures


💡 一句话要点

提出动态事实对齐方法,缓解大语言模型中的地理空间知识幻觉问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 地理空间知识 知识幻觉 事实对齐 知识图谱

📋 核心要点

  1. 现有大语言模型在地理空间知识方面存在幻觉问题,影响了其在相关任务中的可靠性。
  2. 论文提出了一种基于Kahneman-Tversky优化(KTO)的动态事实对齐方法,以减轻地理空间幻觉。
  3. 实验结果表明,该方法在地理空间知识基准测试中实现了超过29.6%的性能提升。

📝 摘要(中文)

大型语言模型(LLM)拥有广泛的世界知识,包括地理空间知识,并已成功应用于各种地理空间任务,如移动性预测和社会指标预测。然而,LLM经常生成不准确的地理空间知识,导致地理空间幻觉(地理空间信息的不正确或不一致表示),从而损害其可靠性。虽然LLM中一般知识幻觉的现象已被广泛研究,但对地理空间幻觉的系统评估和缓解仍未得到充分探索。为了解决这个问题,我们提出了一个全面的地理空间幻觉评估框架,利用结构化的地理空间知识图进行受控评估。通过对20个先进LLM的广泛评估,我们揭示了它们地理空间知识中的幻觉。在此基础上,我们引入了一种基于Kahneman-Tversky优化(KTO)的动态事实对齐方法,以减轻LLM中的地理空间幻觉,从而在提出的基准测试中实现了超过29.6%的性能提升。大量的实验结果表明,我们的基准测试和学习算法在提高LLM在地理空间知识和推理任务中的可信度方面是有效的。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在地理空间知识方面存在的幻觉问题。现有方法缺乏对地理空间幻觉的系统评估和有效缓解机制,导致LLM在地理空间任务中的可靠性降低。LLM可能会生成不准确或不一致的地理空间信息,例如错误的地理位置、错误的地理关系等。

核心思路:论文的核心思路是利用结构化的地理空间知识图作为ground truth,构建一个全面的评估框架来识别LLM中的地理空间幻觉。然后,通过动态事实对齐方法,使LLM的输出与知识图中的事实保持一致,从而减轻幻觉。该方法基于Kahneman-Tversky优化(KTO),旨在调整LLM的概率分布,使其更倾向于生成符合事实的地理空间知识。

技术框架:整体框架包含两个主要阶段:1) 地理空间幻觉评估阶段:利用构建的地理空间知识图,设计一系列评估问题,测试LLM的地理空间知识准确性,识别幻觉。2) 动态事实对齐阶段:基于KTO算法,调整LLM的参数,使其输出更符合知识图中的事实。该阶段使用一个动态更新的奖励函数,鼓励LLM生成准确的地理空间知识,并惩罚生成幻觉。

关键创新:论文的关键创新在于提出了一个全面的地理空间幻觉评估框架,并设计了一种基于KTO的动态事实对齐方法。与现有方法相比,该方法能够更有效地识别和缓解LLM中的地理空间幻觉,提高其在地理空间任务中的可靠性。动态事实对齐方法能够根据LLM的输出动态调整奖励函数,使其更适应不同的地理空间知识。

关键设计:KTO算法中的奖励函数设计是关键。该函数基于LLM输出与知识图谱的匹配程度进行设计,对于正确的地理空间知识给予正向奖励,对于错误的地理空间知识给予负向奖励。此外,论文还设计了一系列评估问题,包括地理位置识别、地理关系推理等,以全面评估LLM的地理空间知识。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的动态事实对齐方法能够显著减轻LLM中的地理空间幻觉。在提出的基准测试中,该方法实现了超过29.6%的性能提升。与未经过对齐的LLM相比,经过对齐的LLM能够更准确地回答地理空间问题,并生成更可靠的地理空间知识。实验还对比了不同LLM的性能,揭示了它们在地理空间知识方面的差异。

🎯 应用场景

该研究成果可应用于各种需要地理空间知识的场景,例如智能导航、城市规划、灾害管理、位置推荐等。通过提高LLM在地理空间知识方面的准确性和可靠性,可以提升相关应用的性能和用户体验。未来的研究可以进一步探索如何将该方法应用于更复杂的地理空间推理任务,并与其他知识融合,构建更强大的地理空间智能系统。

📄 摘要(原文)

Large language models (LLMs) possess extensive world knowledge, including geospatial knowledge, which has been successfully applied to various geospatial tasks such as mobility prediction and social indicator prediction. However, LLMs often generate inaccurate geospatial knowledge, leading to geospatial hallucinations (incorrect or inconsistent representations of geospatial information) that compromise their reliability. While the phenomenon of general knowledge hallucination in LLMs has been widely studied, the systematic evaluation and mitigation of geospatial hallucinations remain largely unexplored. To address this gap, we propose a comprehensive evaluation framework for geospatial hallucinations, leveraging structured geospatial knowledge graphs for controlled assessment. Through extensive evaluation across 20 advanced LLMs, we uncover the hallucinations in their geospatial knowledge. Building on these insights, we introduce a dynamic factuality aligning method based on Kahneman-Tversky Optimization (KTO) to mitigate geospatial hallucinations in LLMs, leading to a performance improvement of over 29.6% on the proposed benchmark. Extensive experimental results demonstrate the effectiveness of our benchmark and learning algorithm in enhancing the trustworthiness of LLMs in geospatial knowledge and reasoning tasks.