Structured Linked Data as a Memory Layer for Agent-Orchestrated Retrieval

📄 arXiv: 2603.10700v1 📥 PDF

作者: Andrea Volpini, Elie Raad, Beatrice Gamba, David Riccitelli

分类: cs.IR, cs.AI

发布日期: 2026-03-11

备注: 33 pages, 7 figures, reproducibility appendix, dataset/evaluation framework/enhanced entity page templates released with the paper


💡 一句话要点

利用结构化链接数据增强Agent编排的检索式生成系统

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 检索增强生成 结构化链接数据 知识图谱 Agent编排 Schema.org 实体页面 多跳推理

📋 核心要点

  1. 现有RAG系统忽略文档的结构化元数据和链接关系,导致检索效率和答案质量受限。
  2. 论文提出利用Schema.org标记和可解引用实体页面等结构化链接数据,增强RAG系统的检索能力。
  3. 实验结果表明,结合Agent指令、面包屑和神经搜索的增强实体页面格式显著提升了RAG系统的准确性。

📝 摘要(中文)

检索增强生成(RAG)系统通常将文档视为扁平文本,忽略了知识图谱提供的结构化元数据和链接关系。本文研究了结构化链接数据,特别是Schema.org标记和链接数据平台提供的可解引用实体页面,是否可以提高标准和Agent型RAG系统中的检索准确性和答案质量。我们使用Vertex AI Vector Search 2.0进行检索,Google Agent Development Kit (ADK)进行Agent推理,在四个领域(社论、法律、旅游、电子商务)进行了一项对照实验。实验设计测试了七种条件:三种文档表示(纯HTML、带有JSON-LD的HTML和一个增强的Agent优化实体页面)与两种检索模式(标准RAG和具有多跳链接遍历的Agent型RAG)交叉,以及一个增强+条件,该条件增加了丰富的导航功能和实体互连。结果表明,虽然单独的JSON-LD标记仅提供适度的改进,但我们增强的实体页面格式,结合了llms.txt风格的Agent指令、面包屑和神经搜索功能,实现了显著的提升:标准RAG的准确性提高了+29.6%,完整的Agent管道的准确性提高了+29.8%。具有更丰富导航功能的增强+变体获得了最高的绝对分数(准确性:4.85/5,完整性:4.55/5),但相对于基本增强格式的增量收益在统计上并不显著。我们发布了我们的数据集、评估框架和增强的实体页面模板,以支持可重复性。

🔬 方法详解

问题定义:现有RAG系统将文档视为扁平文本,无法有效利用文档中蕴含的结构化信息,如Schema.org markup和实体间的链接关系。这导致检索结果不够准确,生成的答案质量不高,尤其是在需要多跳推理的复杂场景下。现有方法缺乏对结构化数据的有效利用,限制了RAG系统的性能。

核心思路:论文的核心思路是利用结构化链接数据作为RAG系统的记忆层,通过Schema.org markup和可解引用实体页面,将文档中的结构化信息显式地呈现给检索模型和Agent。通过增强实体页面,使其包含Agent指令、面包屑和神经搜索功能,从而提高检索的准确性和答案的质量。

技术框架:整体框架包括以下几个主要模块:1) 文档表示:将文档表示为纯HTML、带有JSON-LD的HTML或增强的Agent优化实体页面。2) 检索模块:使用Vertex AI Vector Search 2.0进行向量检索。3) Agent推理模块:使用Google Agent Development Kit (ADK)进行Agent推理,支持多跳链接遍历。4) 评估模块:使用自定义的评估框架对检索结果和答案质量进行评估。

关键创新:最重要的技术创新点在于增强的Agent优化实体页面格式。该格式不仅包含JSON-LD markup,还增加了llms.txt风格的Agent指令、面包屑和神经搜索功能。这些增强功能使得Agent能够更好地理解文档的结构化信息,并进行更有效的检索和推理。与现有方法的本质区别在于,该方法显式地利用了结构化链接数据,而不是仅仅依赖于扁平文本。

关键设计:增强的Agent优化实体页面包含以下关键设计:1) llms.txt风格的Agent指令:指导Agent如何理解和使用该实体页面。2) 面包屑:提供页面导航,帮助Agent理解实体之间的关系。3) 神经搜索功能:允许Agent使用自然语言查询来搜索实体页面中的信息。4) 实体互连:通过链接将相关的实体页面连接起来,支持多跳链接遍历。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,增强的Agent优化实体页面格式显著提升了RAG系统的性能。标准RAG的准确性提高了+29.6%,完整的Agent管道的准确性提高了+29.8%。具有更丰富导航功能的增强+变体获得了最高的绝对分数(准确性:4.85/5,完整性:4.55/5)。这些结果表明,结构化链接数据可以有效地增强RAG系统的检索能力。

🎯 应用场景

该研究成果可应用于各种需要知识密集型检索和推理的场景,例如智能客服、问答系统、知识图谱构建、产品推荐等。通过利用结构化链接数据,可以提高检索的准确性和答案的质量,从而提升用户体验和工作效率。未来,该方法可以进一步扩展到更复杂的知识图谱和Agent编排系统中。

📄 摘要(原文)

Retrieval-Augmented Generation (RAG) systems typically treat documents as flat text, ignoring the structured metadata and linked relationships that knowledge graphs provide. In this paper, we investigate whether structured linked data, specifically Schema.org markup and dereferenceable entity pages served by a Linked Data Platform, can improve retrieval accuracy and answer quality in both standard and agentic RAG systems. We conduct a controlled experiment across four domains (editorial, legal, travel, e-commerce) using Vertex AI Vector Search 2.0 for retrieval and the Google Agent Development Kit (ADK) for agentic reasoning. Our experimental design tests seven conditions: three document representations (plain HTML, HTML with JSON-LD, and an enhanced agentic-optimized entity page) crossed with two retrieval modes (standard RAG and agentic RAG with multi-hop link traversal), plus an Enhanced+ condition that adds rich navigational affordances and entity interlinking. Our results reveal that while JSON-LD markup alone provides only modest improvements, our enhanced entity page format, incorporating llms.txt-style agent instructions, breadcrumbs, and neural search capabilities, achieves substantial gains: +29.6% accuracy improvement for standard RAG and +29.8% for the full agentic pipeline. The Enhanced+ variant, with richer navigational affordances, achieves the highest absolute scores (accuracy: 4.85/5, completeness: 4.55/5), though the incremental gain over the base enhanced format is not statistically significant. We release our dataset, evaluation framework, and enhanced entity page templates to support reproducibility.