QSTRBench: a New Benchmark to Evaluate the Ability of Language Models to Reason with Qualitative Spatial and Temporal Calculi

📄 arXiv: 2605.18380v1 📥 PDF

作者: Anthony G. Cohn, Robert E. Blackwell

分类: cs.AI

发布日期: 2026-05-18

备注: 74 pages, 20 figures


💡 一句话要点

提出QSTRBench以评估语言模型的空间与时间推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 定性推理 空间时间计算 语言模型 基准测试 人工智能

📋 核心要点

  1. 现有语言模型在定性空间和时间推理方面表现不佳,无法一致地回答复杂问题。
  2. 本文提出了QSTRBench基准,系统评估语言模型在多种定性推理演算下的表现,涵盖多种问题形式。
  3. 实验结果显示,尽管所有模型均优于随机猜测,但在不同演算下的表现差异显著,RCC-22为最难演算。

📝 摘要(中文)

本文介绍了一种广泛的定性空间和时间推理(QSTR)基准,用于评估大型语言模型(LLMs)。我们提出了关于组合推理、对话关系和概念邻域的问题,涵盖多种QSTR演算,包括点代数、艾伦区间代数、区域连接演算等。RCC-22概念邻域首次发布。基准系统地变化问题呈现方式,并报告了现代前沿模型的结果,所有测试模型均优于随机猜测,但没有模型能够始终正确回答所有问题。表现因演算而异,点代数最简单,RCC-22最具挑战性。我们以开放许可发布基准和结果,以促进对LLMs定性时空推理的进一步评估。

🔬 方法详解

问题定义:本文旨在解决现有语言模型在定性空间和时间推理中的不足,尤其是在复杂问题的回答一致性方面。现有方法在处理多样化问题时表现不佳,缺乏系统性评估。

核心思路:提出QSTRBench基准,通过系统化的问题呈现方式,评估语言模型在不同定性推理演算下的能力,旨在提供一个全面的评估框架。

技术框架:整体架构包括问题生成模块、模型评估模块和结果分析模块。问题生成模块负责生成多样化的定性推理问题,模型评估模块则对不同语言模型进行测试,最后结果分析模块对模型表现进行统计和比较。

关键创新:RCC-22概念邻域的首次发布是本文的重要创新,此外,系统变化问题呈现方式的设计使得评估更加全面和深入。

关键设计:在问题呈现中,采用了前缀/中缀、词汇/符号/虚构术语等多种形式,确保问题的多样性和复杂性。实验中使用了多种现代语言模型,评估其在不同演算下的表现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所有测试的语言模型均优于随机猜测,但在不同的定性推理演算中表现差异显著。尤其是,点代数的表现最佳,而RCC-22的表现最差,显示出模型在处理复杂推理时的局限性。

🎯 应用场景

该研究的潜在应用领域包括智能问答系统、自动推理工具和人机交互等。通过提升语言模型在定性时空推理方面的能力,可以增强其在复杂场景下的应用价值,推动智能系统的进一步发展。

📄 摘要(原文)

We introduce an extensive qualitative spatial and temporal reasoning (QSTR) benchmark for evaluating large language models (LLMs). We pose questions concerning compositional reasoning (using composition tables, CT), converse relations, and conceptual neighbourhoods (CN) for QSTR calculi, Point Algebra (PA), Allen's Interval Algebra, Interval and Duration (INDU), Region Connection Calculus (RCC-5, RCC-8, and RCC-22), the nine intersection model, cardinal direction calculus, and STAR. The RCC-22 CN is published here for the first time. An extended benchmark systematically varies question presentation including prefix/infix, words/symbols/nonce terms and schematic descriptions for selected calculi. We report results for contemporary frontier models. All models tested perform better than guessing but none can consistently answer all questions correctly. Performance varies sharply by calculus, with PA being the most straightforward, and RCC-22 the most difficult. We release the benchmark, and our results under an open licence to facilitate further assessment of qualitative spatio/temporal reasoning in LLMs.