Enabling LLM Knowledge Analysis via Extensive Materialization

📄 arXiv: 2411.04920v4 📥 PDF

作者: Yujia Hu, Tuan-Phong Nguyen, Shrestha Ghosh, Simon Razniewski

分类: cs.CL, cs.AI, cs.DB

发布日期: 2024-11-07 (更新: 2025-06-04)

备注: 14 pages, 4 tables, 12 figures

期刊: ACL 2025


💡 一句话要点

通过大规模物化实现LLM知识分析,构建GPTKB知识库。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 知识库构建 知识分析 事实性知识 可得性偏差

📋 核心要点

  1. 现有LLM知识分析方法受限于预定义的小规模样本,存在“可得性偏差”,难以全面评估LLM的知识。
  2. 论文提出一种递归查询和结果整合的方法,全面物化LLM的事实知识,从而更深入地分析LLM的知识。
  3. 构建了包含1.01亿关系三元组的GPTKB知识库,并用其分析了GPT-4o-mini的知识规模、准确性等多个维度。

📝 摘要(中文)

大型语言模型(LLMs)在自然语言处理和人工智能领域取得了重大进展,其成功因素之一是其内化的事实知识。自从Petroni等人(2019)的研究以来,分析这些知识受到了关注。然而,大多数方法通过小规模的预定义样本一次调查一个问题,引入了一种“可得性偏差”(Tversky&Kahnemann,1973),这阻碍了对LLM知识(或信念)的分析,使其超出实验者预设的范围。为了解决这个挑战,我们提出了一种新颖的方法,通过递归查询和结果整合来全面物化LLM的事实知识。我们的方法是LLM研究的一个里程碑,首次为LLM知识(或信念)的范围和结构提供了建设性的见解。作为一个原型,我们构建了GPTKB,一个包含来自GPT-4o-mini的超过290万个实体的1.01亿个关系三元组的知识库(KB)。我们使用GPTKB来示例性地分析GPT-4o-mini的事实知识的规模、准确性、偏差、截止性和一致性。

🔬 方法详解

问题定义:现有LLM知识分析方法主要依赖于预定义的小规模样本,这导致了“可得性偏差”,即分析结果严重依赖于实验者预先设定的问题和知识范围。这种方法无法全面、客观地评估LLM所掌握的知识,也难以发现LLM潜在的认知偏差和知识盲区。因此,如何突破这种局限性,实现对LLM知识的全面、深入分析,是本研究要解决的核心问题。

核心思路:论文的核心思路是通过大规模物化LLM的知识,构建一个包含大量事实性知识的知识库,从而为后续的知识分析提供数据基础。具体而言,通过递归查询LLM,并对返回的结果进行整合,可以尽可能地挖掘出LLM所掌握的知识。这种方法避免了人工预设问题带来的偏差,能够更全面地反映LLM的知识结构和内容。

技术框架:该方法主要包含以下几个阶段:1) 实体发现:利用LLM生成实体列表作为种子。2) 关系抽取:针对每个实体,通过提示LLM生成相关关系三元组。3) 知识库构建:将抽取的三元组存储到知识库中,形成GPTKB。4) 知识分析:利用GPTKB对LLM的知识进行多维度分析,例如规模、准确性、偏差、截止性和一致性。整个流程是一个迭代的过程,可以不断地扩展和完善GPTKB。

关键创新:该研究的关键创新在于提出了一种全新的LLM知识分析方法,即通过大规模物化LLM的知识来构建知识库。与以往基于预定义样本的分析方法相比,该方法能够更全面、客观地评估LLM的知识,并发现LLM潜在的认知偏差和知识盲区。此外,GPTKB的构建也为后续的LLM知识分析提供了宝贵的数据资源。

关键设计:论文中没有明确给出关键的参数设置、损失函数、网络结构等技术细节。递归查询的具体提示工程(prompt engineering)策略,以及如何有效地整合LLM返回的结果,是构建高质量GPTKB的关键。此外,知识库的存储结构和查询效率也会影响后续知识分析的性能。这些细节在论文中没有详细描述,属于未知内容。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文构建了包含1.01亿关系三元组的GPTKB知识库,覆盖超过290万个实体,并用其分析了GPT-4o-mini的知识规模、准确性、偏差、截止性和一致性。虽然论文没有给出具体的性能数据和对比基线,但GPTKB的规模本身就是一个重要的成果,为后续的LLM知识分析提供了数据基础。

🎯 应用场景

该研究成果可应用于LLM的评估与改进、知识图谱的自动构建、以及提升LLM在问答系统、信息检索等任务中的性能。通过分析LLM的知识结构和偏差,可以指导LLM的训练和微调,使其更加可靠和可信。此外,GPTKB可以作为LLM知识的外部存储,用于增强LLM的知识覆盖面和推理能力。

📄 摘要(原文)

Large language models (LLMs) have majorly advanced NLP and AI, and next to their ability to perform a wide range of procedural tasks, a major success factor is their internalized factual knowledge. Since Petroni et al. (2019), analyzing this knowledge has gained attention. However, most approaches investigate one question at a time via modest-sized pre-defined samples, introducing an ``availability bias'' (Tversky&Kahnemann, 1973) that prevents the analysis of knowledge (or beliefs) of LLMs beyond the experimenter's predisposition. To address this challenge, we propose a novel methodology to comprehensively materialize an LLM's factual knowledge through recursive querying and result consolidation. Our approach is a milestone for LLM research, for the first time providing constructive insights into the scope and structure of LLM knowledge (or beliefs). As a prototype, we build GPTKB, a knowledge base (KB) comprising 101 million relational triples for over 2.9 million entities from GPT-4o-mini. We use GPTKB to exemplarily analyze GPT-4o-mini's factual knowledge in terms of scale, accuracy, bias, cutoff and consistency, at the same time. GPTKB is accessible at https://gptkb.org