Equipping Retrieval-Augmented Large Language Models with Document Structure Awareness

📄 arXiv: 2510.04293v1 📥 PDF

作者: Lingnan Xu, Chong Feng, Kaiyuan Zhang, Liu Zhengyong, Wenqiang Xu, Fanqing Meng

分类: cs.CL

发布日期: 2025-10-05

备注: EMNLP2025 Findings


💡 一句话要点

RDR2:提出文档结构感知的检索增强大语言模型框架,提升复杂场景知识利用能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 大型语言模型 文档结构感知 信息检索 知识利用

📋 核心要点

  1. 现有检索增强生成方法忽略了文档的内在结构,导致信息利用效率低下,尤其是在处理复杂文档时。
  2. RDR2框架通过引入一个基于LLM的路由器,动态地导航文档结构树,从而显式地利用文档的结构信息。
  3. 实验结果表明,RDR2在多个数据集上取得了state-of-the-art的性能,验证了结构感知对RAG系统的重要性。

📝 摘要(中文)

大型语言模型(LLMs)虽然展现出强大的能力,但其对参数化知识的依赖常常导致事实不准确。检索增强生成(RAG)通过利用外部文档来缓解这个问题,然而现有方法将检索到的段落视为孤立的块,忽略了对文档组织至关重要的有价值的结构信息。受此启发,我们提出了Retrieve-DocumentRoute-Read (RDR2),这是一个新颖的框架,它在整个RAG过程中显式地结合了结构信息。RDR2采用基于LLM的路由器来动态地导航文档结构树,共同评估内容相关性和层次关系,以组装最佳证据。我们的关键创新在于将文档路由制定为一个可训练的任务,通过自动动作管理和受人类阅读策略启发的结构感知段落选择。通过在五个具有挑战性的数据集上的全面评估,RDR2实现了最先进的性能,表明显式的结构感知显著增强了RAG系统获取和利用知识的能力,尤其是在需要多文档合成的复杂场景中。

🔬 方法详解

问题定义:现有检索增强生成(RAG)方法通常将检索到的文档视为孤立的文本块,忽略了文档内部的结构信息,例如章节、段落之间的层次关系。这种处理方式导致模型难以有效地理解和利用文档中的知识,尤其是在需要多文档推理或复杂信息整合的场景下。现有方法的痛点在于缺乏对文档结构信息的有效建模和利用,限制了RAG系统的性能上限。

核心思路:RDR2的核心思路是显式地将文档结构信息融入到RAG流程中。通过构建文档的结构树,并使用一个基于LLM的路由器动态地导航这个结构树,RDR2能够更好地理解文档的内容和组织方式,从而选择更相关的证据来支持生成任务。这种结构感知的检索方式能够提高RAG系统的信息检索效率和知识利用能力。

技术框架:RDR2框架主要包含以下几个模块:1) 文档结构树构建:将文档解析为结构化的树形表示,节点代表文档的不同部分(如章节、段落),边代表它们之间的层次关系。2) LLM路由器:使用一个基于LLM的路由器来动态地导航文档结构树。路由器根据当前状态(已检索到的信息、问题等)选择下一步要访问的节点。3) 结构感知段落选择:在每个节点,路由器评估该节点的内容相关性和结构关系,选择最相关的段落作为证据。4) 生成:将选择的证据输入到LLM中,生成最终的答案。

关键创新:RDR2的关键创新在于将文档路由制定为一个可训练的任务。通过自动动作管理和受人类阅读策略启发的结构感知段落选择,RDR2能够有效地学习如何导航文档结构树,从而选择最相关的证据。与现有方法相比,RDR2显式地建模了文档的结构信息,并将其融入到检索过程中,从而提高了RAG系统的性能。

关键设计:RDR2使用LLM作为路由器,通过训练来学习如何根据当前状态选择下一步要访问的节点。训练数据通过模仿人类阅读策略自动生成。损失函数的设计旨在鼓励路由器选择与问题相关的节点,并遵循文档的结构层次。具体的参数设置和网络结构细节未在摘要中详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

RDR2在五个具有挑战性的数据集上进行了评估,并取得了state-of-the-art的性能。具体的数据提升幅度未在摘要中给出,属于未知信息。实验结果表明,RDR2能够有效地利用文档的结构信息,从而提高RAG系统的性能。与现有方法相比,RDR2在需要多文档合成的复杂场景中表现出更强的优势。

🎯 应用场景

RDR2框架具有广泛的应用前景,例如在问答系统、智能客服、报告生成等领域。它可以帮助用户更有效地从大量文档中提取信息,并生成高质量的答案或报告。此外,RDR2还可以应用于知识图谱构建、信息抽取等任务,提高知识获取和利用的效率。该研究的实际价值在于提升了RAG系统的性能,使其能够更好地处理复杂文档和多文档推理任务。未来,RDR2可以进一步扩展到处理更复杂的文档结构和多模态文档。

📄 摘要(原文)

While large language models (LLMs) demonstrate impressive capabilities, their reliance on parametric knowledge often leads to factual inaccuracies. Retrieval-Augmented Generation (RAG) mitigates this by leveraging external documents, yet existing approaches treat retrieved passages as isolated chunks, ignoring valuable structure that is crucial for document organization. Motivated by this gap, we propose Retrieve-DocumentRoute-Read (RDR2), a novel framework that explicitly incorporates structural information throughout the RAG process. RDR2 employs an LLM-based router to dynamically navigate document structure trees, jointly evaluating content relevance and hierarchical relationships to assemble optimal evidence. Our key innovation lies in formulating document routing as a trainable task, with automatic action curation and structure-aware passage selection inspired by human reading strategies. Through comprehensive evaluation on five challenging datasets, RDR2 achieves state-of-the-art performance, demonstrating that explicit structural awareness significantly enhances RAG systems' ability to acquire and utilize knowledge, particularly in complex scenarios requiring multi-document synthesis.