Automating SPARQL Query Translations between DBpedia and Wikidata

📄 arXiv: 2507.10045v1 📥 PDF

作者: Malte Christian Bartels, Debayan Banerjee, Ricardo Usbeck

分类: cs.AI, cs.CL

发布日期: 2025-07-14

备注: 18 pages, 2 figues. Paper accepted at SEMANTiCS 2025 conference happening on September 2025


💡 一句话要点

利用大型语言模型自动翻译DBpedia和Wikidata之间的SPARQL查询

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 知识图谱 SPARQL查询翻译 大型语言模型 DBpedia Wikidata

📋 核心要点

  1. 知识图谱互操作性面临SPARQL查询转换的挑战,现有方法难以高效准确地在不同KG模式间转换查询。
  2. 利用大型语言模型理解和生成SPARQL,通过不同提示策略,实现KG模式间的自动查询转换。
  3. 实验表明,模型性能受模型架构和提示策略影响,Wikidata到DBpedia的翻译优于反向翻译。

📝 摘要(中文)

本文研究了当前最先进的大型语言模型(LLMs)是否能够自动翻译流行知识图谱(KG)模式之间的SPARQL查询。研究重点是DBpedia和Wikidata KG之间的翻译,以及DBLP和OpenAlex KG之间的翻译,旨在填补KG互操作性研究中的一个显著空白,通过严格评估LLM在SPARQL-to-SPARQL翻译上的性能。构建了两个基准数据集,第一个对齐了QALD-9-Plus中的100个DBpedia-Wikidata查询,第二个包含100个DBLP查询,这些查询与OpenAlex对齐,测试了在百科全书式KG之外的泛化能力。选择了三个开源LLM:Llama-3-8B、DeepSeek-R1-Distill-Llama-70B和Mistral-Large-Instruct-2407,基于它们的大小和架构进行选择,并使用零样本、少样本和两种思维链变体进行测试。将输出与黄金答案进行比较,并对产生的错误进行分类。研究发现,不同模型和提示策略的性能差异显著,并且从Wikidata到DBpedia的翻译效果远好于从DBpedia到Wikidata的翻译。

🔬 方法详解

问题定义:论文旨在解决不同知识图谱(如DBpedia和Wikidata)之间SPARQL查询的自动翻译问题。现有方法在处理不同KG模式间的差异时存在困难,导致翻译准确率低,需要人工干预。因此,如何利用LLM自动且准确地进行SPARQL查询转换是本研究的核心问题。

核心思路:论文的核心思路是利用大型语言模型(LLMs)的强大语言理解和生成能力,将SPARQL查询翻译问题转化为一个序列到序列的翻译任务。通过合适的提示策略(如零样本、少样本、思维链),引导LLM理解源SPARQL查询的语义,并生成目标KG模式下的等价SPARQL查询。这样设计的目的是减少人工干预,提高翻译效率和准确性。

技术框架:整体框架包括以下几个主要步骤:1) 构建基准数据集,包含对齐的DBpedia-Wikidata和DBLP-OpenAlex SPARQL查询对。2) 选择合适的LLM模型,如Llama-3-8B、DeepSeek-R1-Distill-Llama-70B和Mistral-Large-Instruct-2407。3) 设计不同的提示策略,包括零样本、少样本和两种思维链变体。4) 使用不同的LLM和提示策略对基准数据集进行SPARQL查询翻译。5) 将LLM的输出与黄金答案进行比较,评估翻译的准确性,并对错误进行分类。

关键创新:论文的关键创新在于将大型语言模型应用于SPARQL查询翻译任务,并系统地评估了不同模型和提示策略对翻译性能的影响。此外,论文还构建了两个新的基准数据集,用于评估LLM在不同KG模式下的泛化能力。与现有方法相比,该方法无需人工设计复杂的转换规则,而是利用LLM的自动学习能力实现查询翻译。

关键设计:论文的关键设计包括:1) 提示策略的设计,例如思维链提示,引导LLM逐步推理并生成SPARQL查询。2) 基准数据集的构建,确保数据集包含不同类型的SPARQL查询,并覆盖不同的KG模式。3) 错误分类方法,用于分析LLM翻译失败的原因,为后续改进提供指导。论文没有涉及特定的损失函数或网络结构设计,因为其主要关注点在于利用现有的LLM模型进行SPARQL查询翻译。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,不同LLM和提示策略对SPARQL查询翻译性能影响显著。Wikidata到DBpedia的翻译效果明显优于DBpedia到Wikidata的翻译。例如,某些模型在特定提示策略下,Wikidata到DBpedia的翻译准确率可达较高水平,但反向翻译的准确率则较低,这表明LLM在处理不同KG模式时存在一定的偏好。

🎯 应用场景

该研究成果可应用于知识图谱集成、数据互操作性、智能问答系统等领域。通过自动翻译SPARQL查询,可以降低跨KG数据访问的门槛,促进不同KG之间的数据共享和融合。未来,该技术有望应用于构建更加智能和灵活的知识图谱应用,例如跨KG的智能搜索和推荐系统。

📄 摘要(原文)

This paper investigates whether state-of-the-art Large Language Models (LLMs) can automatically translate SPARQL between popular Knowledge Graph (KG) schemas. We focus on translations between the DBpedia and Wikidata KG, and later on DBLP and OpenAlex KG. This study addresses a notable gap in KG interoperability research by rigorously evaluating LLM performance on SPARQL-to-SPARQL translation. Two benchmarks are assembled, where the first align 100 DBpedia-Wikidata queries from QALD-9-Plus; the second contains 100 DBLP queries aligned to OpenAlex, testing generalizability beyond encyclopaedic KGs. Three open LLMs: Llama-3-8B, DeepSeek-R1-Distill-Llama-70B, and Mistral-Large-Instruct-2407 are selected based on their sizes and architectures and tested with zero-shot, few-shot, and two chain-of-thought variants. Outputs were compared with gold answers, and resulting errors were categorized. We find that the performance varies markedly across models and prompting strategies, and that translations for Wikidata to DBpedia work far better than translations for DBpedia to Wikidata.