LARAG: Link-Aware Retrieval Strategy for RAG Systems in Hyperlinked Technical Documentation

📄 arXiv: 2605.07517v1 📥 PDF

作者: Giorgia Bolognesi, Claudio Estatico, Ulderico Fugacci, Isabella Mastroianni, Claudio Muselli, Luca Oneto

分类: cs.IR, cs.AI

发布日期: 2026-05-08


💡 一句话要点

提出LARAG检索策略,通过利用超链接拓扑结构提升技术文档RAG系统的检索准确性与效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 超链接拓扑 技术文档处理 图式检索 知识表示 信息检索

📋 核心要点

  1. 现有RAG系统将技术文档视为扁平片段,忽略了文档内部蕴含的超链接拓扑结构,导致检索相关性不足。
  2. LARAG通过将HTML文档中的超链接关系编码为元数据,实现了一种无需显式图构建的轻量级隐式图式检索。
  3. 实验表明,LARAG在保持更高答案质量(BERTScore F1)的同时,显著降低了检索片段数量与生成Token开销。

📝 摘要(中文)

检索增强生成(RAG)通过外部文档增强了大语言模型的输出事实性。然而,标准的基于嵌入的检索器将技术手册等结构化语料库视为扁平的片段集合,忽略了用户在导航内容时所依赖的超链接拓扑结构。本文提出了LARAG(链接感知RAG):一种轻量级的链接感知检索策略。它利用HTML文档中现有的作者定义的超链接结构,将超链接关系作为元数据编码到片段表示中,并利用这些关系执行局部相关内容的图式检索。在针对Rulex平台技术文档的二十个专家设计查询及四种提示策略的基准测试中,LARAG始终提升了答案质量,在实现最高BERTScore F1的同时,相比基准RAG架构检索了更少的片段并生成了更少的Token。结果表明,直接利用技术文档现有的超链接拓扑结构,无需显式构建图或推理,即可实现一种隐式的图式检索,从而以更低的成本获得更可靠的RAG流水线。

🔬 方法详解

问题定义:现有RAG系统在处理具有强关联性的技术文档时,通常采用向量相似度检索,将文档切分为独立的片段,导致丢失了文档作者预设的逻辑导航路径(超链接),使得模型难以获取跨片段的上下文关联信息。

核心思路:利用文档本身固有的HTML超链接结构作为先验知识。通过将链接关系显式地注入到片段的元数据中,使检索器能够感知文档的拓扑结构,从而在检索时自动关联相关联的文档节点,实现“图式”检索效果。

技术框架:该方法主要分为三个阶段:首先是文档解析,提取HTML中的文本片段及其对应的超链接关系;其次是元数据增强,将链接信息(如指向的锚点、上下文)编码进片段表示;最后是检索执行,在查询时利用这些元数据进行加权或扩展检索,获取更具连贯性的上下文。

关键创新:LARAG的本质创新在于“隐式图检索”。它无需构建复杂的知识图谱或进行昂贵的图神经网络推理,而是通过复用文档现有的超链接结构,以极低的计算成本实现了对文档逻辑结构的深度利用。

关键设计:该方法通过将超链接关系作为元数据嵌入,在检索阶段对相关联的片段进行加权,从而在不增加额外模型训练负担的情况下,提升了检索结果的语义连贯性和事实覆盖率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在Rulex平台技术文档的基准测试中,LARAG在四种提示策略下均表现优异。相比传统RAG基线,LARAG在提升BERTScore F1指标的同时,实现了更高的检索精度,且显著减少了检索片段的数量和生成的Token总量,证明了该方法在提升回答质量的同时有效降低了计算开销。

🎯 应用场景

该技术特别适用于拥有复杂超链接结构的技术文档库,如软件开发手册、API参考文档、法律法规汇编及企业知识库。其低成本、高效率的特性使其非常适合部署在资源受限的生产环境中,为技术支持机器人、自动化运维系统提供更精准的知识检索与问答服务。

📄 摘要(原文)

Retrieval-Augmented Generation (RAG) enhances the factual grounding of Large Language Models by conditioning their outputs on external documents. However, standard embedding-based retrievers treat naturally structured corpora, such as technical manuals, as flat collections of passages, thereby overlooking the hyperlink topology that users rely on when navigating such content. We introduce LARAG (Link-Aware RAG): a lightweight, link-aware retrieval strategy that leverages the author-defined hyperlink structure already present in HTML documentation, encoding hyperlink relations as metadata in the chunk representations and exploiting them to perform a form of graph-like retrieval of locally relevant content. In a benchmark of twenty expert-designed queries over Rulex Platform technical documentation and four prompting strategies, LARAG consistently improves answer quality, achieving the highest BERTScore F1, while retrieving fewer chunks and generating fewer tokens than a baseline RAG architecture used for comparison. These results show that directly leveraging the existing hyperlink topology of technical documentation, even without explicit graph construction or inference, enables an implicit form of graph-like retrieval that yields a more faithful and efficient RAG pipeline, providing better grounding at lower cost.