Competency Questions as Executable Plans: a Controlled RAG Architecture for Cultural Heritage Storytelling

📄 arXiv: 2604.02545 📥 PDF

作者: Naga Sowjanya Barla, Jacopo de Berardinis

分类: cs.AI

发布日期: 2026-04-06


💡 一句话要点

提出基于知识图谱和能力问题的可控RAG架构,用于文化遗产故事生成。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 知识图谱 检索增强生成 文化遗产 故事生成 能力问题 神经符号架构

📋 核心要点

  1. 大型语言模型在文化遗产叙事中易产生“幻觉”,缺乏事实依据,导致其可靠性不足。
  2. 利用知识图谱和能力问题,构建“计划-检索-生成”流程,实现可审计和证据封闭的故事生成。
  3. 通过对Live Aid KG数据集的实验,量化了不同RAG策略在事实精度、上下文丰富性和叙事连贯性上的权衡。

📝 摘要(中文)

无形文化遗产的保护至关重要,但集体记忆会随时间流逝而逐渐消退。大型语言模型(LLMs)为生成引人入胜的叙述提供了有希望的途径,但其产生事实不准确或“幻觉”的倾向使其在对真实性有中心要求的遗产应用中不可靠。为了解决这个问题,我们提出了一种基于知识图谱(KGs)的新型神经符号架构,该架构为故事生成建立了透明的“计划-检索-生成”工作流程。我们方法的一个关键创新是将能力问题(CQs)——传统上是设计时验证工件——重新用于运行时可执行的叙述计划。这种方法弥合了高级用户角色和原子知识检索之间的差距,确保生成是证据封闭且完全可审计的。我们使用一种新资源验证了这种架构:Live Aid KG,这是一个多模态数据集,将 1985 年的音乐会数据与音乐元本体对齐,并链接到外部多媒体资产。我们对该图进行了三种不同的检索增强生成(RAG)策略的系统比较评估:纯粹的符号 KG-RAG、文本丰富的混合 RAG 和结构感知的图 RAG。我们的实验揭示了符号检索的事实精度、混合方法的上下文丰富性和基于图的遍历的叙述连贯性之间的可量化权衡。我们的发现为设计个性化和可控的故事讲述系统提供了可操作的见解。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在文化遗产故事生成中容易产生不准确信息的问题。现有方法,特别是直接使用LLM生成故事,缺乏对事实的有效控制,导致生成的内容可能与历史或文化背景不符。这对于需要高度准确性的文化遗产应用来说是不可接受的。

核心思路:论文的核心思路是将故事生成过程分解为“计划-检索-生成”三个阶段,并利用知识图谱和能力问题来指导检索过程。能力问题(CQs)被重新用作可执行的叙述计划,从而将高层次的用户需求转化为具体的知识检索步骤。这种方法旨在确保生成的内容基于可靠的知识来源,并具有可审计性。

技术框架:整体架构包含以下几个主要模块:1) 能力问题解析器:将用户输入转化为一系列能力问题。2) 知识图谱检索器:根据能力问题,从知识图谱中检索相关的事实和实体。3) 生成器:利用检索到的知识,生成连贯的故事叙述。论文评估了三种不同的RAG策略:纯符号KG-RAG、文本增强的Hybrid-RAG和结构感知的Graph-RAG。

关键创新:该方法最重要的创新在于将能力问题(CQs)从传统的验证工具转变为运行时可执行的叙述计划。这使得系统能够根据用户需求动态地调整检索策略,并确保生成的内容与知识图谱中的事实保持一致。与传统的RAG方法相比,该方法更加注重对知识检索过程的控制和审计。

关键设计:论文中没有详细描述具体的参数设置、损失函数或网络结构,因为重点在于架构设计和流程控制。关键设计在于如何将能力问题有效地转化为知识图谱查询,以及如何将检索到的知识整合到故事生成过程中。不同的RAG策略在知识检索的方式上有所不同,例如,Graph-RAG利用图结构进行遍历,而Hybrid-RAG则结合了文本和图结构的信息。

📊 实验亮点

实验结果表明,不同的RAG策略在事实精度、上下文丰富性和叙事连贯性之间存在权衡。纯符号KG-RAG具有最高的事实精度,但上下文丰富性较差;混合RAG在两者之间取得了平衡;而Graph-RAG则在叙事连贯性方面表现更佳。这些发现为设计个性化和可控的故事讲述系统提供了有价值的指导。

🎯 应用场景

该研究成果可应用于博物馆、文化遗产网站、教育平台等领域,用于生成个性化、可信赖的文化遗产故事。通过可控的叙事生成,能够提升用户体验,促进文化遗产的保护和传承,并为相关领域的研究提供新的思路。

📄 摘要(原文)

The preservation of intangible cultural heritage is a critical challenge as collective memory fades over time. While Large Language Models (LLMs) offer a promising avenue for generating engaging narratives, their propensity for factual inaccuracies or "hallucinations" makes them unreliable for heritage applications where veracity is a central requirement. To address this, we propose a novel neuro-symbolic architecture grounded in Knowledge Graphs (KGs) that establishes a transparent "plan-retrieve-generate" workflow for story generation. A key novelty of our approach is the repurposing of competency questions (CQs) - traditionally design-time validation artifacts - into run-time executable narrative plans. This approach bridges the gap between high-level user personas and atomic knowledge retrieval, ensuring that generation is evidence-closed and fully auditable. We validate this architecture using a new resource: the Live Aid KG, a multimodal dataset aligning 1985 concert data with the Music Meta Ontology and linking to external multimedia assets. We present a systematic comparative evaluation of three distinct Retrieval-Augmented Generation (RAG) strategies over this graph: a purely symbolic KG-RAG, a text-enriched Hybrid-RAG, and a structure-aware Graph-RAG. Our experiments reveal a quantifiable trade-off between the factual precision of symbolic retrieval, the contextual richness of hybrid methods, and the narrative coherence of graph-based traversal. Our findings offer actionable insights for designing personalised and controllable storytelling systems.