More Documents, Same Length: Isolating the Challenge of Multiple Documents in RAG

📄 arXiv: 2503.04388v3 📥 PDF

作者: Shahar Levy, Nir Mazor, Lihi Shalmon, Michael Hassid, Gabriel Stanovsky

分类: cs.CL

发布日期: 2025-03-06 (更新: 2025-11-27)

备注: Preprint

🔗 代码/项目: GITHUB


💡 一句话要点

研究揭示RAG中多文档数量对LLM性能的负面影响,并发现Qwen2.5具有更强的多文档处理能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 RAG 多文档处理 大型语言模型 LLM 上下文长度 多跳问答

📋 核心要点

  1. 现有研究未能在控制上下文长度的情况下,有效隔离RAG中多文档数量对LLM性能的独立影响。
  2. 该研究通过构建自定义数据集,在固定上下文长度和信息位置的前提下,改变文档数量,评估LLM性能。
  3. 实验表明,增加文档数量会显著降低大多数LLM的RAG性能,但Qwen2.5表现出更强的多文档处理能力。

📝 摘要(中文)

检索增强生成(RAG)通过在生成过程中利用相关的外部文档来提高大型语言模型(LLM)响应的准确性。虽然之前的研究已经注意到检索大量文档会降低性能,但它们并没有在控制上下文长度的同时,分离出文档数量对性能的影响。我们评估了各种语言模型在源于多跳问答任务的自定义数据集上的表现。在保持上下文长度和相关信息位置不变的情况下,我们改变了文档的数量,并发现增加RAG设置中的文档数量对大多数LLM提出了重大挑战,性能降低高达20%。然而,Qwen2.5在增加文档数量的情况下保持了一致的结果,表明其具有更好的多文档处理能力。最后,我们的结果表明,处理多个文档与处理长上下文是不同的挑战。我们还提供了数据集和代码:https://github.com/shaharl6000/MoreDocsSameLen 。

🔬 方法详解

问题定义:论文旨在研究在RAG框架下,文档数量的增加对LLM性能的独立影响。现有研究通常没有将文档数量的影响与上下文长度的影响区分开来,因此无法准确评估多文档处理能力对RAG性能的挑战。

核心思路:论文的核心思路是构建一个受控实验环境,通过固定上下文长度和相关信息的位置,只改变输入文档的数量,从而隔离文档数量对LLM性能的影响。这种方法可以更清晰地揭示LLM在处理多文档时的固有挑战。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 基于多跳问答任务构建自定义数据集,该数据集允许控制文档数量、上下文长度和相关信息位置。2) 选择多个LLM进行评估,包括各种规模和架构的模型。3) 在不同文档数量下,评估LLM在RAG任务上的性能,并分析性能变化。4) 对比不同LLM在多文档处理方面的表现,找出具有更强多文档处理能力的模型。

关键创新:该研究的关键创新在于其实验设计,通过控制变量的方法,成功地将文档数量对RAG性能的影响与其他因素(如上下文长度)的影响隔离开来。这使得研究能够更准确地评估LLM在处理多文档时的能力和挑战。

关键设计:论文的关键设计包括:1) 使用多跳问答任务作为评估RAG性能的基础,因为多跳问答通常需要从多个文档中检索信息。2) 精心设计数据集,确保在改变文档数量的同时,保持上下文长度和相关信息的位置不变。3) 使用多种LLM进行评估,以确保结果的普遍性。4) 使用准确率等指标来评估RAG性能,并进行统计分析。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,增加文档数量会显著降低大多数LLM的RAG性能,性能下降高达20%。然而,Qwen2.5在增加文档数量的情况下保持了一致的结果,表明其具有更强的多文档处理能力。这表明并非所有LLM都平等地擅长处理多文档,并且Qwen2.5在这一方面具有显著优势。

🎯 应用场景

该研究成果可应用于提升RAG系统的性能,尤其是在需要处理大量文档的场景下,例如知识密集型问答、文档摘要和信息检索等。通过选择具有更强多文档处理能力的LLM,或者优化RAG流程以更好地处理多文档,可以显著提高RAG系统的准确性和效率。此外,该研究也为未来LLM的架构设计和训练提供了新的思路。

📄 摘要(原文)

Retrieval-Augmented Generation (RAG) enhances the accuracy of Large Language Model (LLM) responses by leveraging relevant external documents during generation. Although previous studies noted that retrieving many documents can degrade performance, they did not isolate how the quantity of documents affects performance while controlling for context length. We evaluate various language models on custom datasets derived from a multi-hop QA task. We keep the context length and position of relevant information constant while varying the number of documents, and find that increasing the document count in RAG settings poses significant challenges for most LLMs, reducing performance by up to 20%. However, Qwen2.5 maintained consistent results across increasing document counts, indicating better multi-document handling capability. Finally, our results indicate that processing multiple documents is a separate challenge from handling long contexts. We also make the datasets and code available: https://github.com/shaharl6000/MoreDocsSameLen .