NaviRAG: Towards Active Knowledge Navigation for Retrieval-Augmented Generation

📄 arXiv: 2604.12766v1 📥 PDF

作者: Jihao Dai, Dingjun Wu, Yuxuan Chen, Zheni Zeng, Yukun Yan, Zhenghao Liu, Maosong Sun

分类: cs.CL

发布日期: 2026-04-14


💡 一句话要点

NaviRAG:面向检索增强生成的主动知识导航框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 知识导航 大型语言模型 长文档问答 分层知识结构

📋 核心要点

  1. 传统RAG方法在处理复杂任务时,难以进行跨粒度的条件检索和动态信息合成。
  2. NaviRAG通过构建分层知识结构,使LLM代理能够主动导航并检索相关信息。
  3. 实验表明,NaviRAG在长文档问答任务中,显著提升了检索召回率和答案准确性。

📝 摘要(中文)

检索增强生成(RAG)通常依赖于一种扁平的检索模式,该模式将查询直接映射到静态的、孤立的文本片段。这种方法难以处理更复杂的任务,这些任务需要在不同粒度级别上进行条件检索和动态信息合成(例如,从广泛的概念到具体的证据)。为了弥合这一差距,我们引入了NaviRAG,这是一个新颖的框架,它将被动片段检索转变为主动知识导航。NaviRAG首先将知识文档构建成一种分层形式,保留从粗粒度主题到细粒度细节的语义关系。利用这种重组的知识记录,大型语言模型(LLM)代理主动导航这些记录,迭代地识别信息差距,并从最合适的粒度级别检索相关内容。在长文档问答基准上的大量实验表明,NaviRAG始终优于传统的RAG基线,提高了检索召回率和端到端答案性能。消融研究证实,性能的提高源于我们的方法具有多粒度证据定位和动态检索规划的能力。我们进一步讨论了我们方法的效率、适用场景和未来方向,希望使RAG系统更加智能和自主。

🔬 方法详解

问题定义:现有RAG方法通常采用扁平化的检索方式,直接将查询映射到静态的文本片段,缺乏对知识的结构化理解和动态探索能力。这导致在处理需要多粒度信息融合的复杂任务时,检索效果不佳,最终影响生成质量。现有方法的痛点在于无法有效利用知识间的层级关系,难以进行有目的性的信息挖掘。

核心思路:NaviRAG的核心在于将知识组织成层次结构,并利用LLM作为智能体,在知识库中进行主动导航。通过迭代地识别信息缺口,并从最合适的粒度级别检索相关内容,从而实现更精准和全面的信息获取。这种主动导航的思路模拟了人类在解决问题时的知识探索过程,更符合实际应用场景的需求。

技术框架:NaviRAG主要包含两个阶段:知识结构化和主动知识导航。首先,将知识文档构建成层次结构,保留从粗粒度主题到细粒度细节的语义关系。然后,LLM代理根据当前的信息需求,在层次化的知识库中进行迭代检索,每次检索都基于先前检索结果和当前查询,动态调整检索策略。整个过程可以看作是一个马尔可夫决策过程,LLM代理的目标是最大化最终答案的质量。

关键创新:NaviRAG最重要的创新点在于将传统的被动检索转变为主动知识导航。与现有方法直接检索扁平化的文本片段不同,NaviRAG通过构建层次化的知识结构,并利用LLM代理进行有目的性的信息探索,从而实现更精准和全面的信息获取。这种主动导航的思路使得RAG系统能够更好地适应复杂任务的需求。

关键设计:知识结构化的具体方法取决于具体的应用场景和知识库的特点。可以采用基于主题模型的聚类方法,也可以利用现有的知识图谱。LLM代理的设计需要考虑检索策略的制定、信息缺口的识别以及检索结果的评估。检索策略可以采用基于规则的方法,也可以采用基于强化学习的方法。信息缺口的识别可以利用LLM的文本理解能力,判断当前信息是否足以回答问题。检索结果的评估可以采用基于相似度的方法,也可以采用基于生成质量的方法。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,NaviRAG在长文档问答基准上显著优于传统的RAG基线。具体而言,NaviRAG在检索召回率和端到端答案性能方面均取得了显著提升。消融研究进一步证实,性能的提升主要归功于NaviRAG的多粒度证据定位和动态检索规划能力。这些结果表明,NaviRAG是一种有效的RAG增强方法,具有广阔的应用前景。

🎯 应用场景

NaviRAG适用于需要处理长文档、复杂知识库的问答系统、智能助手等应用场景。例如,在法律咨询领域,可以利用NaviRAG从大量的法律条文中检索相关信息,为用户提供更准确的法律建议。在医疗诊断领域,可以利用NaviRAG从医学文献中检索相关信息,辅助医生进行诊断和治疗。该研究有助于提升RAG系统的智能化水平,使其能够更好地服务于各行各业。

📄 摘要(原文)

Retrieval-augmented generation (RAG) typically relies on a flat retrieval paradigm that maps queries directly to static, isolated text segments. This approach struggles with more complex tasks that require the conditional retrieval and dynamic synthesis of information across different levels of granularity (e.g., from broad concepts to specific evidence). To bridge this gap, we introduce NaviRAG, a novel framework that shifts from passive segment retrieval to active knowledge navigation. NaviRAG first structures the knowledge documents into a hierarchical form, preserving semantic relationships from coarse-grained topics to fine-grained details. Leveraging this reorganized knowledge records, a large language model (LLM) agent actively navigates the records, iteratively identifying information gaps and retrieving relevant content from the most appropriate granularity level. Extensive experiments on long-document QA benchmarks show that NaviRAG consistently improves both retrieval recall and end-to-end answer performance over conventional RAG baselines. Ablation studies confirm performance gains stem from our method's capacity for multi-granular evidence localization and dynamic retrieval planning. We further discuss efficiency, applicable scenario, and future directions of our method, hoping to make RAG systems more intelligent and autonomous.