LinearRAG: Linear Graph Retrieval Augmented Generation on Large-scale Corpora

📄 arXiv: 2510.10114v4 📥 PDF

作者: Luyao Zhuang, Shengyuan Chen, Yilin Xiao, Huachi Zhou, Yujing Zhang, Hao Chen, Qinggang Zhang, Xiao Huang

分类: cs.CL

发布日期: 2025-10-11 (更新: 2025-11-09)

🔗 代码/项目: GITHUB


💡 一句话要点

提出LinearRAG以解决大规模语料库中的信息检索问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 图神经网络 信息检索 自然语言处理 实体提取 语义链接 大规模语料库

📋 核心要点

  1. 现有的图基RAG方法依赖于不稳定且成本高昂的关系提取,导致检索质量下降。
  2. LinearRAG通过构建无关系的Tri-Graph,采用轻量级实体提取和语义链接,提升了图构建的可靠性。
  3. 在四个数据集上的实验表明,LinearRAG显著超越了传统基线模型,提升了检索效果。

📝 摘要(中文)

检索增强生成(RAG)广泛应用于减轻大型语言模型(LLMs)的幻觉问题,通过利用外部知识来提高生成质量。然而,传统的RAG系统在处理大规模、非结构化语料时面临挑战,尤其是信息碎片化的问题。为此,本文提出LinearRAG(线性图检索增强生成),通过构建无关系的层次图Tri-Graph,采用轻量级的实体提取和语义链接,避免了不稳定的关系建模,从而实现可靠的图构建和精确的段落检索。实验结果表明,LinearRAG在四个数据集上显著优于基线模型。

🔬 方法详解

问题定义:本文旨在解决现有图基RAG方法在大规模语料库中因关系提取不稳定而导致的检索质量下降问题。传统方法常常生成噪声图,影响信息检索的准确性。

核心思路:LinearRAG的核心思路是构建一个无关系的层次图Tri-Graph,利用轻量级的实体提取和语义链接,避免复杂的关系建模,从而提高图的稳定性和检索的准确性。

技术框架:LinearRAG的整体架构包括两个主要阶段:首先,通过局部语义桥接激活相关实体;其次,通过全局重要性聚合进行段落检索。该框架能够线性扩展,适应大规模语料库。

关键创新:最重要的创新在于Tri-Graph的构建方式,避免了传统方法中对关系的依赖,从而提高了图的构建效率和检索质量。与现有方法相比,LinearRAG在处理复杂查询时表现出更高的稳定性和准确性。

关键设计:在设计中,LinearRAG采用了轻量级的实体提取技术,避免了复杂的关系建模,并且在检索阶段引入了两阶段策略,确保了检索的高效性和准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在四个数据集上的实验结果显示,LinearRAG在检索任务中显著优于基线模型,具体提升幅度达到20%以上,证明了其在处理复杂查询时的有效性和可靠性。

🎯 应用场景

LinearRAG的研究成果在多个领域具有潜在应用价值,包括智能问答系统、信息检索和知识图谱构建等。通过提高大规模语料库的检索效率,该方法能够为用户提供更准确的信息,推动自然语言处理技术的进一步发展。

📄 摘要(原文)

Retrieval-Augmented Generation (RAG) is widely used to mitigate hallucinations of Large Language Models (LLMs) by leveraging external knowledge. While effective for simple queries, traditional RAG systems struggle with large-scale, unstructured corpora where information is fragmented. Recent advances incorporate knowledge graphs to capture relational structures, enabling more comprehensive retrieval for complex, multi-hop reasoning tasks. However, existing graph-based RAG (GraphRAG) methods rely on unstable and costly relation extraction for graph construction, often producing noisy graphs with incorrect or inconsistent relations that degrade retrieval quality. In this paper, we revisit the pipeline of existing GraphRAG systems and propose LinearRAG (Linear Graph-based Retrieval-Augmented Generation), an efficient framework that enables reliable graph construction and precise passage retrieval. Specifically, LinearRAG constructs a relation-free hierarchical graph, termed Tri-Graph, using only lightweight entity extraction and semantic linking, avoiding unstable relation modeling. This new paradigm of graph construction scales linearly with corpus size and incurs no extra token consumption, providing an economical and reliable indexing of the original passages. For retrieval, LinearRAG adopts a two-stage strategy: (i) relevant entity activation via local semantic bridging, followed by (ii) passage retrieval through global importance aggregation. Extensive experiments on four datasets demonstrate that LinearRAG significantly outperforms baseline models. Our code and datasets are available at https://github.com/DEEP-PolyU/LinearRAG.