MacRAG: Compress, Slice, and Scale-up for Multi-Scale Adaptive Context RAG

📄 arXiv: 2505.06569v2 📥 PDF

作者: Woosang Lim, Zekun Li, Gyuwan Kim, Sungyoung Ji, HyeonJung Kim, Kyuri Choi, Jin Hyuk Lim, Kyungpyo Park, William Yang Wang

分类: cs.CL, cs.AI, cs.IR, cs.LG

发布日期: 2025-05-10 (更新: 2025-05-20)

🔗 代码/项目: GITHUB


💡 一句话要点

MacRAG:一种多尺度自适应上下文RAG框架,用于压缩、切分和扩展长文档多跳问答。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 长文档处理 多跳问答 上下文学习 分层检索 自适应上下文 多尺度学习

📋 核心要点

  1. 现有RAG系统在长文档和多跳问答任务中,面临检索精度低、上下文覆盖不全以及信息碎片化等挑战。
  2. MacRAG通过分层压缩文档,并自适应地融合不同粒度的上下文,构建查询相关的长上下文,提升检索精度和覆盖率。
  3. 实验结果表明,MacRAG在多个长文档问答数据集上,使用多种LLM模型,均显著优于基线RAG方法。

📝 摘要(中文)

本文提出了一种多尺度自适应上下文RAG(MacRAG)框架,旨在解决现有RAG系统在处理复杂多跳和长文档任务时存在的检索不精确、上下文覆盖不完整以及信息碎片化等问题。MacRAG采用分层结构,将文档压缩并划分为粗细不同的粒度,然后通过实时的块级和文档级扩展自适应地合并相关上下文。该方法从最细粒度的检索开始,逐步整合更广泛、更高层次的上下文,从而构建有效的、特定于查询的长上下文,优化精度和覆盖率。在HotpotQA、2WikiMultihopQA和Musique等LongBench扩展数据集上的评估表明,使用Llama-3.1-8B、Gemini-1.5-pro和GPT-4o,MacRAG始终优于基线RAG流程。实验结果证明MacRAG是一种高效、可扩展的解决方案,适用于现实世界中的长上下文多跳推理。

🔬 方法详解

问题定义:现有RAG系统在处理长文档和多跳推理任务时,面临着三个主要问题:检索精度不足,无法准确找到相关信息;上下文覆盖不完整,遗漏关键信息;以及上下文构建方式不佳,导致信息碎片化,影响LLM的推理能力。这些问题限制了RAG系统在复杂任务中的应用。

核心思路:MacRAG的核心思路是采用多尺度分层结构,将文档分解为不同粒度的块,并根据查询自适应地选择和组合这些块,构建最优的上下文。通过从细到粗的检索方式,首先关注最相关的细粒度信息,然后逐步扩展到更广阔的上下文,从而提高检索精度和覆盖率。这种自适应的上下文构建方式能够减少信息碎片化,提升LLM的推理效果。

技术框架:MacRAG框架包含以下几个主要模块:1) 文档压缩和分块:将原始文档压缩并划分为不同粒度的块(例如,句子、段落、文档)。2) 索引构建:为不同粒度的块构建索引,以便快速检索。3) 自适应检索:根据查询,首先检索最细粒度的块,然后根据相关性逐步扩展到更粗粒度的块。4) 上下文构建:将检索到的块组合成上下文,并输入到LLM中进行推理。5) 生成答案:LLM根据上下文生成答案。

关键创新:MacRAG的关键创新在于其多尺度自适应上下文构建方法。与传统的RAG方法相比,MacRAG能够根据查询动态地选择和组合不同粒度的信息,从而构建更精确、更完整的上下文。这种方法能够有效地解决现有RAG系统在长文档和多跳推理任务中面临的挑战。

关键设计:MacRAG的关键设计包括:1) 块粒度的选择:需要根据任务的特点选择合适的块粒度。2) 检索策略:需要设计有效的检索策略,以便快速找到相关的块。3) 上下文组合方式:需要设计合理的上下文组合方式,以避免信息冗余和冲突。论文中可能涉及一些超参数的调整,例如不同粒度块的权重,以及扩展上下文时的阈值等,但摘要中未明确提及具体数值。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MacRAG在LongBench扩展的HotpotQA、2WikiMultihopQA和Musique数据集上,使用Llama-3.1-8B、Gemini-1.5-pro和GPT-4o等多种LLM模型,均显著优于基线RAG流程。具体性能提升数据未在摘要中给出,但强调了MacRAG在单步和多步生成任务中的一致优越性,证明了其在长上下文多跳推理方面的有效性。

🎯 应用场景

MacRAG适用于需要处理长文档和进行复杂推理的各种应用场景,例如:法律文档分析、医学报告解读、金融报告分析、科学文献检索、以及多跳问答系统。该方法可以提高信息检索的准确性和效率,帮助用户快速找到所需信息,并做出更明智的决策。未来,MacRAG可以进一步扩展到处理多模态数据,例如图像和视频,从而支持更广泛的应用场景。

📄 摘要(原文)

Long-context large language models (LC LLMs) combined with retrieval-augmented generation (RAG) hold strong potential for complex multi-hop and large-document tasks. However, existing RAG systems often suffer from imprecise retrieval, incomplete context coverage under constrained windows, and fragmented information from suboptimal context construction. We introduce Multi-scale Adaptive Context RAG (MacRAG), a hierarchical RAG framework that compresses and partitions documents into coarse-to-fine granularities, then adaptively merges relevant contexts through real-time chunk- and document-level expansions. By initiating with finest-level retrieval and progressively incorporating broader, higher-level context, MacRAG constructs effective query-specific long contexts, optimizing both precision and coverage. Evaluations on challenging LongBench expansions of HotpotQA, 2WikiMultihopQA, and Musique confirm MacRAG consistently surpasses baseline RAG pipelines in single- and multi-step generation using Llama-3.1-8B, Gemini-1.5-pro, and GPT-4o. Our results establish MacRAG as an efficient, scalable solution for real-world long-context, multi-hop reasoning. Our code is available at https://github.com/Leezekun/MacRAG.