Efficient Federated Search for Retrieval-Augmented Generation

📄 arXiv: 2502.19280v1 📥 PDF

作者: Rachid Guerraoui, Anne-Marie Kermarrec, Diana Petrescu, Rafael Pires, Mathis Randl, Martijn de Vos

分类: cs.LG, cs.DC, cs.IR

发布日期: 2025-02-26

备注: To appear in the proceedings of EuroMLSys'25


💡 一句话要点

提出RAGRoute,用于高效的联邦RAG检索增强生成。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 联邦学习 向量检索 数据源选择 神经网络分类器

📋 核心要点

  1. 现有RAG方法依赖单一向量数据库,无法有效处理信息分散在多处的情况。
  2. RAGRoute通过轻量级神经网络分类器动态选择相关数据源,避免不必要的查询。
  3. 实验表明RAGRoute能有效检索相关文档,显著降低查询数量和通信量。

📝 摘要(中文)

大型语言模型(LLM)在各个领域展现了卓越的能力,但仍然容易出现幻觉和不一致,限制了其可靠性。检索增强生成(RAG)通过将模型响应建立在外部知识源的基础上,缓解了这些问题。现有的RAG工作流程通常利用单个向量数据库,这在信息分布在多个存储库中的常见情况下是不切实际的。我们介绍RAGRoute,一种用于联邦RAG搜索的新机制。RAGRoute在查询时使用轻量级神经网络分类器动态选择相关的数据源。通过不查询每个数据源,这种方法显著降低了查询开销,提高了检索效率,并最大限度地减少了不相关信息的检索。我们使用MIRAGE和MMLU基准评估RAGRoute,并证明了其在检索相关文档同时减少查询数量方面的有效性。RAGRoute最多可减少77.5%的总查询数量和76.2%的通信量。

🔬 方法详解

问题定义:现有检索增强生成(RAG)方法通常依赖于单一的向量数据库,这在实际应用中存在局限性,因为信息往往分散在多个不同的数据源或知识库中。直接查询所有数据源会导致巨大的查询开销,降低检索效率,并可能引入大量不相关的信息,影响生成质量。因此,如何高效地从多个数据源中检索相关信息是亟待解决的问题。

核心思路:RAGRoute的核心思路是在查询时动态地选择最相关的数据源,而不是盲目地查询所有数据源。通过一个轻量级的神经网络分类器,RAGRoute能够根据查询的内容预测哪些数据源可能包含相关信息,从而只查询这些选定的数据源。这种选择性查询的方式能够显著降低查询开销,提高检索效率,并减少不相关信息的干扰。

技术框架:RAGRoute的整体框架包括以下几个主要模块:1) 查询编码器:将用户查询转换为向量表示。2) 数据源分类器:一个轻量级的神经网络分类器,输入查询向量,输出每个数据源与查询相关的概率。3) 数据源选择器:根据分类器的输出,选择概率最高的若干个数据源进行查询。4) 检索器:在选定的数据源中进行向量检索,获取相关文档。5) 生成器:利用检索到的文档增强语言模型的生成过程。

关键创新:RAGRoute的关键创新在于其动态数据源选择机制。与传统的RAG方法不同,RAGRoute不是静态地查询所有数据源,而是根据查询的内容动态地选择最相关的数据源。这种动态选择机制能够显著降低查询开销,提高检索效率,并减少不相关信息的干扰。此外,RAGRoute采用轻量级的神经网络分类器,保证了数据源选择过程的效率。

关键设计:数据源分类器是RAGRoute的关键组件。该分类器通常采用一个简单的神经网络结构,例如多层感知机(MLP),输入是查询的向量表示,输出是每个数据源与查询相关的概率。分类器的训练数据可以通过人工标注或自动生成的方式获取。损失函数通常采用交叉熵损失函数,优化目标是最大化正确数据源的预测概率。查询编码器可以使用预训练的语言模型,例如BERT或Sentence-BERT,将查询转换为高质量的向量表示。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,RAGRoute在MIRAGE和MMLU基准测试中表现出色。RAGRoute最多可减少77.5%的总查询数量和76.2%的通信量,同时保持或提高了检索的准确性。这些结果证明了RAGRoute在联邦RAG搜索中的有效性和效率。

🎯 应用场景

RAGRoute适用于需要从多个知识库或数据源中检索信息的各种应用场景,例如企业知识管理、问答系统、智能客服等。通过高效地检索相关信息,RAGRoute可以提高这些应用的准确性和效率,并减少对计算资源的需求。未来,RAGRoute可以进一步扩展到更复杂的联邦学习场景,例如跨机构的数据共享和模型训练。

📄 摘要(原文)

Large language models (LLMs) have demonstrated remarkable capabilities across various domains but remain susceptible to hallucinations and inconsistencies, limiting their reliability. Retrieval-augmented generation (RAG) mitigates these issues by grounding model responses in external knowledge sources. Existing RAG workflows often leverage a single vector database, which is impractical in the common setting where information is distributed across multiple repositories. We introduce RAGRoute, a novel mechanism for federated RAG search. RAGRoute dynamically selects relevant data sources at query time using a lightweight neural network classifier. By not querying every data source, this approach significantly reduces query overhead, improves retrieval efficiency, and minimizes the retrieval of irrelevant information. We evaluate RAGRoute using the MIRAGE and MMLU benchmarks and demonstrate its effectiveness in retrieving relevant documents while reducing the number of queries. RAGRoute reduces the total number of queries up to 77.5% and communication volume up to 76.2%.