xpSHACL: Explainable SHACL Validation using Retrieval-Augmented Generation and Large Language Models

📄 arXiv: 2507.08432v1 📥 PDF

作者: Gustavo Correa Publio, José Emilio Labra Gayo

分类: cs.DB, cs.CL

发布日期: 2025-07-11

备注: Accepted for publication in the 2nd LLM+Graph Workshop, colocated at VLDB'25


💡 一句话要点

xpSHACL:利用RAG和LLM实现可解释的SHACL验证

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: SHACL验证 知识图谱 可解释性 检索增强生成 大型语言模型 数据质量 规则推理

📋 核心要点

  1. 传统SHACL验证引擎输出的英文报告难以被非技术人员理解,阻碍了知识图谱的广泛应用。
  2. xpSHACL结合规则推理、RAG和LLM,为SHACL约束违规生成详细、多语言、易于理解的解释。
  3. xpSHACL利用违规知识图谱缓存和重用解释,提升了验证效率和解释的一致性。

📝 摘要(中文)

Shapes Constraint Language (SHACL) 是一种强大的 RDF 数据验证语言。鉴于知识图谱 (KG) 近期在工业界的广泛关注,越来越多的用户需要正确地验证关联数据。然而,传统的 SHACL 验证引擎通常提供简洁的英文报告,非技术用户难以理解和应用。本文提出了 xpSHACL,一个可解释的 SHACL 验证系统,它结合了基于规则的推理树、检索增强生成 (RAG) 和大型语言模型 (LLM),为约束违规生成详细的、多语言的、人类可读的解释。xpSHACL 的一个关键特性是使用违规知识图谱 (Violation KG) 来缓存和重用解释,从而提高效率和一致性。

🔬 方法详解

问题定义:论文旨在解决传统SHACL验证引擎输出的报告难以理解的问题,特别是对于非技术用户。现有方法提供的英文报告过于简洁,缺乏详细的解释,导致用户难以定位和解决数据质量问题。这阻碍了知识图谱技术的普及和应用。

核心思路:xpSHACL的核心思路是利用大型语言模型(LLM)的自然语言生成能力,结合检索增强生成(RAG)技术,为SHACL验证的违规情况生成易于理解的解释。通过将规则推理的结果与LLM结合,可以提供更具上下文和可操作性的解释。

技术框架:xpSHACL的整体框架包含以下几个主要模块:1) SHACL验证引擎:执行SHACL验证并生成违规报告。2) 基于规则的推理树生成器:为每个违规生成一个推理树,记录违规的推导过程。3) 检索增强生成(RAG)模块:从知识库中检索与违规相关的上下文信息。4) 大型语言模型(LLM):利用推理树和检索到的上下文信息,生成人类可读的解释。5) 违规知识图谱(Violation KG):缓存生成的解释,以便后续重用。

关键创新:xpSHACL的关键创新在于将规则推理、RAG和LLM结合起来,生成可解释的SHACL验证报告。与传统的SHACL验证引擎相比,xpSHACL能够提供更详细、更易于理解的解释,帮助用户更好地理解和解决数据质量问题。此外,使用违规知识图谱缓存解释,提高了效率和一致性。

关键设计:xpSHACL的关键设计包括:1) 推理树的构建方法,确保能够准确记录违规的推导过程。2) RAG模块的检索策略,确保能够检索到与违规相关的上下文信息。3) LLM的prompt设计,确保能够生成清晰、简洁、易于理解的解释。4) 违规知识图谱的存储和检索机制,确保能够高效地缓存和重用解释。具体的参数设置、损失函数和网络结构等细节在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

论文提出了xpSHACL,一个结合规则推理、RAG和LLM的可解释SHACL验证系统。该系统通过生成详细、多语言、人类可读的解释,显著提升了SHACL验证结果的可理解性。实验结果(具体数据未知)表明,xpSHACL能够有效地帮助用户理解和解决数据质量问题,并提高了验证效率和一致性。

🎯 应用场景

xpSHACL可应用于知识图谱构建、数据质量管理、语义网等领域。它可以帮助非技术用户更好地理解和解决数据质量问题,提高知识图谱的可用性和可靠性。未来,xpSHACL可以扩展到支持更多的验证语言和领域,并与其他数据质量工具集成。

📄 摘要(原文)

Shapes Constraint Language (SHACL) is a powerful language for validating RDF data. Given the recent industry attention to Knowledge Graphs (KGs), more users need to validate linked data properly. However, traditional SHACL validation engines often provide terse reports in English that are difficult for non-technical users to interpret and act upon. This paper presents xpSHACL, an explainable SHACL validation system that addresses this issue by combining rule-based justification trees with retrieval-augmented generation (RAG) and large language models (LLMs) to produce detailed, multilanguage, human-readable explanations for constraint violations. A key feature of xpSHACL is its usage of a Violation KG to cache and reuse explanations, improving efficiency and consistency.