A Benchmark for the Detection of Metalinguistic Disagreements between LLMs and Knowledge Graphs

📄 arXiv: 2502.02896v1 📥 PDF

作者: Bradley P. Allen, Paul T. Groth

分类: cs.CL, cs.AI

发布日期: 2025-02-05

备注: 6 pages, 2 tables, to appear in Reham Alharbi, Jacopo de Berardinis, Paul Groth, Albert Meroño-Peñuela, Elena Simperl, Valentina Tamma (eds.), ISWC 2024 Special Session on Harmonising Generative AI and Semantic Web Technologies. CEUR-WS.org (forthcoming), for associated code and data see https://github.com/bradleypallen/trex-metalinguistic-disagreement


💡 一句话要点

提出用于检测LLM与知识图谱之间元语言分歧的基准测试方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 知识图谱 事实抽取 元语言分歧 基准测试

📋 核心要点

  1. 现有LLM事实抽取评估依赖于知识图谱,但忽略了LLM与KG在语言理解上的差异。
  2. 论文提出一种基准测试方法,用于区分LLM与KG之间的事实分歧和元语言分歧。
  3. 通过T-REx数据集验证,证实LLM与KG间存在元语言分歧,并开源了初步的概念验证。

📝 摘要(中文)

在评估大型语言模型(LLM)执行诸如知识图谱构建中的事实抽取等任务时,通常使用基于知识图谱(KG)的ground truth基准来计算准确性指标。这些评估假设误差代表事实上的分歧。然而,人类的讨论经常出现元语言分歧,即主体之间不是在事实上存在差异,而是在用于表达事实的语言的含义上存在差异。鉴于使用LLM进行自然语言处理和生成的复杂性,我们提出问题:LLM和KG之间是否存在元语言分歧?基于使用T-REx知识对齐数据集的调查,我们假设LLM和KG之间确实存在元语言分歧,这可能与知识图谱工程的实践相关。我们提出了一个基准,用于评估LLM和KG之间事实分歧和元语言分歧的检测。这种基准的初步概念验证已在Github上提供。

🔬 方法详解

问题定义:论文旨在解决LLM在知识图谱构建的事实抽取任务中,评估误差来源不明确的问题。现有评估方法通常假设误差源于事实错误,忽略了LLM与知识图谱在语言理解上的差异,即元语言分歧。这种忽略可能导致对LLM能力的错误评估,并阻碍知识图谱工程的改进。

核心思路:论文的核心思路是区分LLM与知识图谱之间的事实分歧和元语言分歧。通过分析LLM生成的事实与知识图谱中事实之间的差异,判断这种差异是由于事实错误还是语言理解上的差异造成的。这需要对LLM的输出进行更细致的分析,并结合知识图谱的语义信息。

技术框架:论文提出了一个基准测试框架,用于评估LLM检测事实和元语言分歧的能力。该框架包括以下主要步骤:1) 使用LLM从文本中抽取事实;2) 将抽取的事实与知识图谱中的事实进行比较;3) 判断差异是事实分歧还是元语言分歧;4) 使用评估指标来衡量LLM检测分歧的准确性。该框架使用T-REx数据集进行验证。

关键创新:论文的关键创新在于提出了元语言分歧的概念,并将其应用于LLM与知识图谱的评估中。这是一种新的视角,可以更准确地评估LLM在知识图谱构建中的能力。此外,论文还提出了一个基准测试框架,用于评估LLM检测事实和元语言分歧的能力。

关键设计:论文的关键设计包括:1) 如何定义和区分事实分歧和元语言分歧;2) 如何设计评估指标来衡量LLM检测分歧的准确性;3) 如何选择合适的知识图谱数据集进行验证。具体的技术细节(如损失函数、网络结构等)未在摘要中提及,属于未知信息。

📊 实验亮点

论文通过在T-REx数据集上的实验,验证了LLM与知识图谱之间存在元语言分歧。虽然摘要中没有给出具体的性能数据和提升幅度,但该研究为LLM评估提供了一种新的视角,并为未来的研究奠定了基础。初步的概念验证已在Github上开源。

🎯 应用场景

该研究成果可应用于知识图谱构建、LLM评估和自然语言理解等领域。通过区分事实分歧和元语言分歧,可以更准确地评估LLM在知识图谱构建中的能力,并指导LLM的改进。此外,该研究还可以帮助人们更好地理解LLM的语言理解能力,并开发更有效的自然语言处理技术。

📄 摘要(原文)

Evaluating large language models (LLMs) for tasks like fact extraction in support of knowledge graph construction frequently involves computing accuracy metrics using a ground truth benchmark based on a knowledge graph (KG). These evaluations assume that errors represent factual disagreements. However, human discourse frequently features metalinguistic disagreement, where agents differ not on facts but on the meaning of the language used to express them. Given the complexity of natural language processing and generation using LLMs, we ask: do metalinguistic disagreements occur between LLMs and KGs? Based on an investigation using the T-REx knowledge alignment dataset, we hypothesize that metalinguistic disagreement does in fact occur between LLMs and KGs, with potential relevance for the practice of knowledge graph engineering. We propose a benchmark for evaluating the detection of factual and metalinguistic disagreements between LLMs and KGs. An initial proof of concept of such a benchmark is available on Github.