MacRAG: Compress, Slice, and Scale-up for Multi-Scale Adaptive Context RAG

作者: Woosang Lim, Zekun Li, Gyuwan Kim, Sungyoung Ji, HyeonJung Kim, Kyuri Choi, Jin Hyuk Lim, Kyungpyo Park, William Yang Wang

分类: cs.CL, cs.AI, cs.IR, cs.LG

发布日期: 2025-05-10 (更新: 2025-05-20)

🔗 代码/项目: GITHUB

💡 一句话要点

MacRAG：一种多尺度自适应上下文RAG框架，用于压缩、切分和扩展长文档多跳问答。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 长文档处理 多跳问答 上下文学习 分层检索 自适应上下文 多尺度学习

📋 核心要点

现有RAG系统在长文档和多跳问答任务中，面临检索精度低、上下文覆盖不全以及信息碎片化等挑战。
MacRAG通过分层压缩文档，并自适应地融合不同粒度的上下文，构建查询相关的长上下文，提升检索精度和覆盖率。
实验结果表明，MacRAG在多个长文档问答数据集上，使用多种LLM模型，均显著优于基线RAG方法。

📝 摘要（中文）

本文提出了一种多尺度自适应上下文RAG（MacRAG）框架，旨在解决现有RAG系统在处理复杂多跳和长文档任务时存在的检索不精确、上下文覆盖不完整以及信息碎片化等问题。MacRAG采用分层结构，将文档压缩并划分为粗细不同的粒度，然后通过实时的块级和文档级扩展自适应地合并相关上下文。该方法从最细粒度的检索开始，逐步整合更广泛、更高层次的上下文，从而构建有效的、特定于查询的长上下文，优化精度和覆盖率。在HotpotQA、2WikiMultihopQA和Musique等LongBench扩展数据集上的评估表明，使用Llama-3.1-8B、Gemini-1.5-pro和GPT-4o，MacRAG始终优于基线RAG流程。实验结果证明MacRAG是一种高效、可扩展的解决方案，适用于现实世界中的长上下文多跳推理。

🔬 方法详解

问题定义：现有RAG系统在处理长文档和多跳推理任务时，面临着三个主要问题：检索精度不足，无法准确找到相关信息；上下文覆盖不完整，遗漏关键信息；以及上下文构建方式不佳，导致信息碎片化，影响LLM的推理能力。这些问题限制了RAG系统在复杂任务中的应用。

核心思路：MacRAG的核心思路是采用多尺度分层结构，将文档分解为不同粒度的块，并根据查询自适应地选择和组合这些块，构建最优的上下文。通过从细到粗的检索方式，首先关注最相关的细粒度信息，然后逐步扩展到更广阔的上下文，从而提高检索精度和覆盖率。这种自适应的上下文构建方式能够减少信息碎片化，提升LLM的推理效果。

技术框架：MacRAG框架包含以下几个主要模块：1) 文档压缩和分块：将原始文档压缩并划分为不同粒度的块（例如，句子、段落、文档）。2) 索引构建：为不同粒度的块构建索引，以便快速检索。3) 自适应检索：根据查询，首先检索最细粒度的块，然后根据相关性逐步扩展到更粗粒度的块。4) 上下文构建：将检索到的块组合成上下文，并输入到LLM中进行推理。5) 生成答案：LLM根据上下文生成答案。

关键创新：MacRAG的关键创新在于其多尺度自适应上下文构建方法。与传统的RAG方法相比，MacRAG能够根据查询动态地选择和组合不同粒度的信息，从而构建更精确、更完整的上下文。这种方法能够有效地解决现有RAG系统在长文档和多跳推理任务中面临的挑战。

关键设计：MacRAG的关键设计包括：1) 块粒度的选择：需要根据任务的特点选择合适的块粒度。2) 检索策略：需要设计有效的检索策略，以便快速找到相关的块。3) 上下文组合方式：需要设计合理的上下文组合方式，以避免信息冗余和冲突。论文中可能涉及一些超参数的调整，例如不同粒度块的权重，以及扩展上下文时的阈值等，但摘要中未明确提及具体数值。

🖼️ 关键图片

📊 实验亮点

实验结果表明，MacRAG在LongBench扩展的HotpotQA、2WikiMultihopQA和Musique数据集上，使用Llama-3.1-8B、Gemini-1.5-pro和GPT-4o等多种LLM模型，均显著优于基线RAG流程。具体性能提升数据未在摘要中给出，但强调了MacRAG在单步和多步生成任务中的一致优越性，证明了其在长上下文多跳推理方面的有效性。

🎯 应用场景

MacRAG适用于需要处理长文档和进行复杂推理的各种应用场景，例如：法律文档分析、医学报告解读、金融报告分析、科学文献检索、以及多跳问答系统。该方法可以提高信息检索的准确性和效率，帮助用户快速找到所需信息，并做出更明智的决策。未来，MacRAG可以进一步扩展到处理多模态数据，例如图像和视频，从而支持更广泛的应用场景。

📄 摘要（原文）

Long-context large language models (LC LLMs) combined with retrieval-augmented generation (RAG) hold strong potential for complex multi-hop and large-document tasks. However, existing RAG systems often suffer from imprecise retrieval, incomplete context coverage under constrained windows, and fragmented information from suboptimal context construction. We introduce Multi-scale Adaptive Context RAG (MacRAG), a hierarchical RAG framework that compresses and partitions documents into coarse-to-fine granularities, then adaptively merges relevant contexts through real-time chunk- and document-level expansions. By initiating with finest-level retrieval and progressively incorporating broader, higher-level context, MacRAG constructs effective query-specific long contexts, optimizing both precision and coverage. Evaluations on challenging LongBench expansions of HotpotQA, 2WikiMultihopQA, and Musique confirm MacRAG consistently surpasses baseline RAG pipelines in single- and multi-step generation using Llama-3.1-8B, Gemini-1.5-pro, and GPT-4o. Our results establish MacRAG as an efficient, scalable solution for real-world long-context, multi-hop reasoning. Our code is available at https://github.com/Leezekun/MacRAG.

MacRAG: Compress, Slice, and Scale-up for Multi-Scale Adaptive Context RAG

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理