PropRAG: Guiding Retrieval with Beam Search over Proposition Paths
作者: Jingjin Wang, Jiawei Han
分类: cs.CL, cs.AI
发布日期: 2025-04-25 (更新: 2025-10-03)
备注: Accepted to EMNLP 2025 (Main Conference). Camera-ready version. Code and data: https://github.com/ReLink-Inc/PropRAG
期刊: Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing, pages 6224-6239 November 4-9, 2025
DOI: 10.18653/v1/2025.emnlp-main.317
💡 一句话要点
PropRAG:利用命题路径上的束搜索引导检索,提升多跳推理RAG性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 检索增强生成 多跳推理 知识图谱 命题表示 束搜索
📋 核心要点
- 传统RAG方法在处理需要多跳推理的复杂问题时,由于无法有效捕捉信息间的关联性而表现不佳。
- PropRAG通过使用上下文丰富的命题代替三元组,并结合束搜索算法,来发现多步推理链,从而提升检索质量。
- 实验表明,PropRAG在多个多跳问答数据集上取得了显著的性能提升,验证了其有效性。
📝 摘要(中文)
检索增强生成(RAG)已成为为大型语言模型(LLM)提供最新知识的标准方法。然而,标准的RAG依赖于独立的段落检索,通常无法捕捉复杂、多跳推理所需的信息的互连性。虽然结构化RAG方法试图使用从三元组构建的知识图谱来解决这个问题,但我们认为三元组固有的上下文丢失(上下文崩溃)限制了知识表示的保真度。我们引入了PropRAG,这是一种新颖的RAG框架,它从三元组转向上下文丰富的命题,并引入了一种高效的、无LLM的在线命题路径束搜索,以发现多步推理链。通过将更高保真度的知识表示与显式路径发现相结合,PropRAG在2Wiki、HotpotQA和MuSiQue上实现了最先进的零样本Recall@5和F1分数,通过更丰富的表示和高效的推理路径发现,改进了证据检索,从而推进了非参数知识集成。
🔬 方法详解
问题定义:现有RAG方法,特别是基于独立段落检索的方法,在处理需要多跳推理的问题时,无法有效捕捉信息之间的关联性。基于知识图谱的RAG方法虽然试图解决这个问题,但三元组表示会造成上下文信息的丢失(context collapse),限制了知识表示的完整性,从而影响检索效果。
核心思路:PropRAG的核心思路是使用上下文更丰富的命题(propositions)来表示知识,并利用高效的搜索算法在命题之间寻找推理路径。通过这种方式,可以更好地捕捉信息之间的关联性,从而提升检索的准确性和完整性。
技术框架:PropRAG框架主要包含以下几个阶段:1) 命题提取:将原始文本转换为一系列上下文丰富的命题。2) 命题索引:构建命题的索引,以便快速检索。3) 路径搜索:使用束搜索算法在命题之间寻找推理路径,找到与问题相关的证据链。4) 答案生成:利用检索到的证据链,通过大型语言模型生成最终答案。
关键创新:PropRAG的关键创新在于:1) 使用命题代替三元组,保留了更多的上下文信息,提高了知识表示的保真度。2) 提出了一种高效的、无LLM的在线束搜索算法,用于发现多步推理路径,避免了对大型语言模型的依赖,降低了计算成本。
关键设计:PropRAG使用基于BERT的句子嵌入模型来表示命题,并使用余弦相似度来衡量命题之间的相关性。束搜索算法使用波束宽度为k的搜索,每次迭代选择top-k个最有可能的路径进行扩展。论文中没有明确提及损失函数或网络结构等其他技术细节。
🖼️ 关键图片
📊 实验亮点
PropRAG在2Wiki、HotpotQA和MuSiQue等多个多跳问答数据集上取得了显著的性能提升。例如,在HotpotQA数据集上,PropRAG的Recall@5和F1分数均超过了现有最佳方法,验证了其在多跳推理任务中的有效性。具体提升幅度未知,需要查阅原文实验数据。
🎯 应用场景
PropRAG可应用于需要多跳推理的问答系统、知识图谱推理、智能客服等领域。通过提升检索的准确性和完整性,PropRAG可以帮助用户更有效地获取所需信息,并为下游任务提供更可靠的知识基础。该方法在医疗、金融等专业领域具有潜在的应用价值。
📄 摘要(原文)
Retrieval Augmented Generation (RAG) has become the standard approach for equipping Large Language Models (LLMs) with up-to-date knowledge. However, standard RAG, relying on independent passage retrieval, often fails to capture the interconnected nature of information required for complex, multi-hop reasoning. While structured RAG methods attempt to address this using knowledge graphs built from triples, we argue that the inherent context loss of triples (context collapse) limits the fidelity of the knowledge representation. We introduce PropRAG, a novel RAG framework that shifts from triples to context-rich propositions and introduces an efficient, LLM-free online beam search over proposition paths to discover multi-step reasoning chains. By coupling a higher-fidelity knowledge representation with explicit path discovery, PropRAG achieves state-of-the-art zero-shot Recall@5 and F1 scores on 2Wiki, HotpotQA, and MuSiQue, advancing non-parametric knowledge integration by improving evidence retrieval through richer representation and efficient reasoning path discovery.