RelationalFactQA: A Benchmark for Evaluating Tabular Fact Retrieval from Large Language Models

📄 arXiv: 2505.21409v1 📥 PDF

作者: Dario Satriani, Enzo Veltri, Donatello Santoro, Paolo Papotti

分类: cs.CL, cs.AI, cs.DB

发布日期: 2025-05-27


💡 一句话要点

提出RelationalFactQA基准,评估LLM从参数知识中检索表格事实的能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 事实性评估 关系型事实检索 表格数据生成 知识库问答

📋 核心要点

  1. 现有LLM在生成结构化、多记录表格形式的事实性知识方面存在不足,缺乏有效的评估基准。
  2. 论文提出RelationalFactQA基准,包含自然语言问题、SQL查询和黄金标准表格答案,用于评估LLM的关系型事实检索能力。
  3. 实验表明,即使是最先进的LLM在RelationalFactQA上的表现也很差,尤其是在处理高维度输出时,事实准确率显著下降。

📝 摘要(中文)

大型语言模型(LLM)的事实性是一个持续存在的挑战。目前的基准通常评估简短的事实性答案,忽略了从参数知识生成结构化的、多记录表格输出的关键能力。我们证明,这种关系型事实检索比孤立的点式查询困难得多,即使模型已知单个事实,也会暴露对输出维度(例如,属性或记录的数量)敏感的不同失败模式。为了系统地评估这种未被充分探索的能力,我们引入了RelationalFactQA,这是一个新的基准,包含多样化的自然语言问题(与SQL配对)和黄金标准的表格答案,专门用于评估结构化格式的知识检索。RelationalFactQA能够分析不同查询复杂度、输出大小和数据特征。我们的实验表明,即使是最先进的LLM也表现不佳,在生成关系型输出时的事实准确率不超过25%,并且随着输出维度的增加,性能明显下降。这些发现强调了当前LLM在综合结构化事实知识方面的关键局限性,并将RelationalFactQA确立为衡量LLM事实性未来进展的关键资源。

🔬 方法详解

问题定义:现有的大型语言模型在事实性方面面临挑战,尤其是在需要生成结构化的、多记录表格输出时。现有的评估基准主要关注孤立的事实性问题,忽略了模型从其参数知识中检索和整合关系型事实的能力。因此,评估LLM生成关系型表格数据的能力变得至关重要。

核心思路:论文的核心思路是构建一个专门用于评估LLM关系型事实检索能力的基准数据集RelationalFactQA。通过设计包含自然语言问题、对应的SQL查询以及黄金标准表格答案的数据集,可以系统地评估LLM在结构化知识检索方面的性能。这种方法能够更全面地了解LLM在处理复杂事实关系时的局限性。

技术框架:RelationalFactQA基准的构建流程主要包括以下几个阶段:1) 设计多样化的自然语言问题,这些问题需要LLM从其参数知识中检索并整合多个相关事实。2) 为每个自然语言问题编写对应的SQL查询,用于从数据库中检索黄金标准答案。3) 构建包含自然语言问题、SQL查询和黄金标准表格答案的数据集。该数据集涵盖了不同的查询复杂度、输出大小和数据特征,以便全面评估LLM的性能。

关键创新:RelationalFactQA的关键创新在于它专注于评估LLM生成关系型表格数据的能力,而现有的基准主要关注孤立的事实性问题。通过引入SQL查询作为中间表示,可以更精确地控制LLM需要检索的信息,并评估其在结构化知识检索方面的性能。此外,RelationalFactQA还考虑了输出维度(例如,属性或记录的数量)对LLM性能的影响。

关键设计:RelationalFactQA数据集的设计考虑了以下关键因素:1) 自然语言问题的多样性,包括不同的问题类型和复杂度。2) SQL查询的准确性和效率,确保能够从数据库中检索到正确的黄金标准答案。3) 黄金标准表格答案的质量,确保其包含所有必要的信息,并且格式正确。4) 数据集的规模,确保其能够提供足够的样本来评估LLM的性能。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,即使是最先进的LLM在RelationalFactQA上的表现也很差,在生成关系型输出时的事实准确率不超过25%。此外,实验还发现,随着输出维度的增加(例如,属性或记录的数量),LLM的性能会显著下降。这些结果表明,当前LLM在综合结构化事实知识方面存在明显的局限性。

🎯 应用场景

RelationalFactQA基准可用于评估和改进LLM在知识密集型任务中的表现,例如问答系统、信息检索和数据分析。通过提高LLM生成结构化事实知识的能力,可以提升其在实际应用中的可靠性和实用性。该基准还可以促进对LLM事实性问题的更深入研究,并推动相关技术的进步。

📄 摘要(原文)

Factuality in Large Language Models (LLMs) is a persistent challenge. Current benchmarks often assess short factual answers, overlooking the critical ability to generate structured, multi-record tabular outputs from parametric knowledge. We demonstrate that this relational fact retrieval is substantially more difficult than isolated point-wise queries, even when individual facts are known to the model, exposing distinct failure modes sensitive to output dimensionality (e.g., number of attributes or records). To systematically evaluate this under-explored capability, we introduce RelationalFactQA, a new benchmark featuring diverse natural language questions (paired with SQL) and gold-standard tabular answers, specifically designed to assess knowledge retrieval in a structured format. RelationalFactQA enables analysis across varying query complexities, output sizes, and data characteristics. Our experiments reveal that even state-of-the-art LLMs struggle significantly, not exceeding 25% factual accuracy in generating relational outputs, with performance notably degrading as output dimensionality increases. These findings underscore critical limitations in current LLMs' ability to synthesize structured factual knowledge and establish RelationalFactQA as a crucial resource for measuring future progress in LLM factuality.