PRGB Benchmark: A Robust Placeholder-Assisted Algorithm for Benchmarking Retrieval-Augmented Generation

📄 arXiv: 2507.22927v1 📥 PDF

作者: Zhehao Tan, Yihan Jiao, Dan Yang, Lei Liu, Jie Feng, Duolin Sun, Yue Shen, Jian Wang, Peng Wei, Jinjie Gu

分类: cs.CL

发布日期: 2025-07-23

🔗 代码/项目: GITHUB


💡 一句话要点

提出PRGB基准,用于评估检索增强生成中LLM的文档利用能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 大型语言模型 基准测试 文档利用 占位符 知识整合 评估指标

📋 核心要点

  1. 现有RAG基准测试侧重于整体系统性能,缺乏对LLM文档利用能力的细粒度评估。
  2. 论文提出基于占位符的PRGB基准,解耦LLM参数知识和外部知识的贡献,从而更准确评估LLM能力。
  3. 实验结果揭示了现有LLM在RAG系统中生成能力方面的局限性,尤其是在错误恢复和上下文忠实性方面。

📝 摘要(中文)

检索增强生成(RAG)通过整合外部知识来增强大型语言模型(LLM),其中LLM基于给定查询和检索文档生成响应的能力至关重要。然而,大多数基准侧重于整体RAG系统性能,很少评估LLM的特定能力。现有基准强调噪声鲁棒性等广泛方面,但缺乏对文档利用的系统和细粒度评估框架。为此,我们引入了Placeholder-RAG-Benchmark,这是一个多层次细粒度基准,强调以下递进维度:(1)多层次过滤能力,(2)组合能力,(3)参考推理。为了更细致地理解LLM在RAG系统中的作用,我们提出了一种创新的基于占位符的方法,以解耦LLM的参数知识和外部知识的贡献。实验表明,代表性LLM在RAG系统的生成能力方面存在局限性,尤其是在错误恢复和上下文忠实性方面。我们的基准为开发更可靠和高效的RAG系统提供了一个可复现的框架。我们的代码可在https://github.com/Alipay-Med/PRGB获取。

🔬 方法详解

问题定义:现有RAG基准测试主要关注端到端系统性能,忽略了对LLM自身在RAG流程中作用的深入评估,尤其是在文档理解、信息整合和推理方面的能力。现有基准缺乏细粒度的评估指标,难以区分LLM的参数知识和检索到的外部知识对最终生成结果的影响。这使得我们难以针对性地改进LLM在RAG系统中的表现。

核心思路:论文的核心思路是通过引入“占位符”机制,将检索到的文档中的关键信息替换为占位符,然后观察LLM在生成过程中如何利用这些占位符。通过控制占位符的内容和位置,可以更精确地评估LLM对外部知识的利用程度和方式。这种方法能够有效解耦LLM的参数知识和外部知识的贡献,从而更准确地评估LLM在RAG系统中的能力。

技术框架:PRGB基准测试包含三个主要阶段:(1)多层次过滤能力评估:测试LLM从检索到的文档中筛选有用信息的能力,包括噪声过滤和信息提取。(2)组合能力评估:测试LLM将检索到的信息与自身知识进行整合的能力,包括信息融合和知识冲突解决。(3)参考推理评估:测试LLM基于检索到的信息进行推理和生成答案的能力,包括上下文理解和逻辑推理。每个阶段都设计了相应的评估指标和测试用例,以全面评估LLM在RAG系统中的表现。

关键创新:PRGB基准测试的关键创新在于其基于占位符的评估方法。通过将检索到的文档中的关键信息替换为占位符,可以精确控制LLM可以访问的外部知识,并观察LLM如何利用这些占位符进行生成。这种方法能够有效解耦LLM的参数知识和外部知识的贡献,从而更准确地评估LLM在RAG系统中的能力。与现有方法相比,PRGB基准测试能够提供更细粒度、更可控的评估结果。

关键设计:PRGB基准测试的关键设计包括:(1)多层次的过滤能力评估,包括噪声过滤、信息提取和相关性判断。(2)组合能力评估,包括信息融合、知识冲突解决和信息优先级排序。(3)参考推理评估,包括上下文理解、逻辑推理和答案生成。每个评估阶段都设计了相应的指标,例如准确率、召回率、F1值等。此外,PRGB基准测试还提供了可复现的评估流程和代码,方便研究人员进行实验和比较。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,现有LLM在RAG系统的生成能力方面存在局限性,尤其是在错误恢复和上下文忠实性方面。例如,在噪声过滤任务中,部分LLM难以有效区分噪声信息和有用信息,导致生成结果的准确性下降。在上下文忠实性方面,部分LLM容易受到检索到的无关信息的影响,导致生成结果偏离原始查询。

🎯 应用场景

PRGB基准测试可应用于评估和改进各种RAG系统,尤其是在需要高度依赖外部知识的场景中,例如问答系统、知识图谱构建、智能客服等。通过使用PRGB基准测试,可以更好地了解LLM在RAG系统中的优势和不足,从而针对性地进行优化,提高RAG系统的性能和可靠性。该基准还有助于开发更高效的检索策略和更有效的知识整合方法。

📄 摘要(原文)

Retrieval-Augmented Generation (RAG) enhances large language models (LLMs) by integrating external knowledge, where the LLM's ability to generate responses based on the combination of a given query and retrieved documents is crucial. However, most benchmarks focus on overall RAG system performance, rarely assessing LLM-specific capabilities. Current benchmarks emphasize broad aspects such as noise robustness, but lack a systematic and granular evaluation framework on document utilization. To this end, we introduce \textit{Placeholder-RAG-Benchmark}, a multi-level fine-grained benchmark, emphasizing the following progressive dimensions: (1) multi-level filtering abilities, (2) combination abilities, and (3) reference reasoning. To provide a more nuanced understanding of LLMs' roles in RAG systems, we formulate an innovative placeholder-based approach to decouple the contributions of the LLM's parametric knowledge and the external knowledge. Experiments demonstrate the limitations of representative LLMs in the RAG system's generation capabilities, particularly in error resilience and context faithfulness. Our benchmark provides a reproducible framework for developing more reliable and efficient RAG systems. Our code is available in https://github.com/Alipay-Med/PRGB.