LLM-KG-Bench 3.0: A Compass for SemanticTechnology Capabilities in the Ocean of LLMs

📄 arXiv: 2505.13098v1 📥 PDF

作者: Lars-Peter Meyer, Johannes Frey, Desiree Heim, Felix Brei, Claus Stadler, Kurt Junghanns, Michael Martin

分类: cs.AI, cs.CL, cs.DB

发布日期: 2025-05-19

备注: Peer reviewed publication at ESWC 2025 Resources Track

期刊: Lecture Notes in Computer Science, Vol 15719(2025), ESWC25 Proceedings Part II, pp 280-296

DOI: 10.1007/978-3-031-94578-6_16


💡 一句话要点

LLM-KG-Bench 3.0:评估大语言模型在语义技术和知识图谱工程能力的基准框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 知识图谱 语义网 评估基准 自动化评估

📋 核心要点

  1. 现有方法缺乏系统性的LLM在知识图谱任务上的评估框架,难以量化LLM在语义技术领域的真实能力。
  2. LLM-KG-Bench 3.0 框架通过可扩展的任务集,自动化评估LLM在处理RDF、SPARQL等语义技术任务时的表现。
  3. 该框架使用30多个LLM生成数据集,创建模型卡,比较它们在不同RDF序列化任务上的性能,为用户选择合适的LLM提供参考。

📝 摘要(中文)

当前的大语言模型(LLMs)除了可以辅助开发程序代码外,还能否支持知识图谱(KGs)的应用?哪个LLM在语义网和知识图谱工程(KGE)领域表现最佳?是否可以在不手动检查大量答案的情况下确定这一点?LLM-KG-Bench 3.0框架旨在回答这些问题。它包含一个可扩展的任务集,用于自动评估LLM的答案,并涵盖语义技术应用的各个方面。本文介绍了LLM-KG-Bench 3.0框架,以及使用它生成的提示、答案和评估数据集,以及几个最先进的LLM。自最初发布以来,该框架进行了重大改进,包括更新的任务API,该API在处理评估任务时提供了更大的灵活性,修订后的任务,以及通过vllm库对各种开放模型的扩展支持等。使用30多个当代开放和专有LLM生成了一个全面的数据集,从而可以创建示例模型卡,以展示模型在使用RDF和SPARQL方面的能力,以及比较它们在Turtle和JSON-LD RDF序列化任务中的性能。

🔬 方法详解

问题定义:现有的大语言模型(LLMs)在处理知识图谱(KGs)相关任务时的能力参差不齐,缺乏一个统一、自动化的评估基准。手动评估LLM在语义网和知识图谱工程(KGE)领域的表现需要耗费大量的人力,且难以保证评估的客观性和一致性。因此,需要一个能够自动、全面地评估LLM在处理RDF、SPARQL等语义技术任务能力的框架。

核心思路:LLM-KG-Bench 3.0 的核心思路是构建一个可扩展的任务集,通过预定义的提示(prompts)和评估指标,自动化地评估LLM在处理知识图谱相关任务时的表现。该框架旨在提供一个客观、可重复的评估平台,帮助用户选择最适合其需求的LLM。

技术框架:LLM-KG-Bench 3.0 框架包含以下主要模块:1) 任务定义模块:定义用于评估LLM在知识图谱任务上表现的任务,例如RDF序列化、SPARQL查询等。2) 提示生成模块:根据任务定义,生成用于输入到LLM的提示。3) LLM调用模块:调用不同的LLM,并获取其对提示的响应。4) 评估模块:根据预定义的评估指标,自动评估LLM的响应质量。5) 模型卡生成模块:根据评估结果,生成模型卡,展示LLM在不同任务上的表现。

关键创新:LLM-KG-Bench 3.0 的关键创新在于其可扩展的任务API,该API允许用户轻松地添加新的评估任务,从而扩展框架的评估范围。此外,该框架还支持通过vllm库调用各种开源LLM,方便用户进行比较和选择。框架还提供了模型卡功能,方便用户快速了解各个LLM在知识图谱任务上的能力。

关键设计:LLM-KG-Bench 3.0 的关键设计包括:1) 任务API的设计,需要保证其灵活性和易用性,方便用户添加新的评估任务。2) 评估指标的选择,需要能够准确地反映LLM在知识图谱任务上的表现。3) 模型卡的设计,需要能够清晰地展示LLM在不同任务上的性能数据。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LLM-KG-Bench 3.0 使用超过30个LLM生成数据集,并创建模型卡,展示了模型在RDF和SPARQL方面的能力,并比较了它们在Turtle和JSON-LD RDF序列化任务中的性能。该框架的更新任务API提供了更大的灵活性,并扩展了对各种开放模型的支持。

🎯 应用场景

该研究成果可应用于知识图谱构建、语义搜索、智能问答等领域。通过LLM-KG-Bench 3.0,开发者可以选择最适合特定知识图谱任务的LLM,提高相关应用的性能和效率。此外,该框架还可以用于评估和改进LLM在语义技术方面的能力,推动LLM在知识图谱领域的应用。

📄 摘要(原文)

Current Large Language Models (LLMs) can assist developing program code beside many other things, but can they support working with Knowledge Graphs (KGs) as well? Which LLM is offering the best capabilities in the field of Semantic Web and Knowledge Graph Engineering (KGE)? Is this possible to determine without checking many answers manually? The LLM-KG-Bench framework in Version 3.0 is designed to answer these questions. It consists of an extensible set of tasks for automated evaluation of LLM answers and covers different aspects of working with semantic technologies. In this paper the LLM-KG-Bench framework is presented in Version 3 along with a dataset of prompts, answers and evaluations generated with it and several state-of-the-art LLMs. Significant enhancements have been made to the framework since its initial release, including an updated task API that offers greater flexibility in handling evaluation tasks, revised tasks, and extended support for various open models through the vllm library, among other improvements. A comprehensive dataset has been generated using more than 30 contemporary open and proprietary LLMs, enabling the creation of exemplary model cards that demonstrate the models' capabilities in working with RDF and SPARQL, as well as comparing their performance on Turtle and JSON-LD RDF serialization tasks.