Evaluating Multi-Hop Reasoning in RAG Systems: A Comparison of LLM-Based Retriever Evaluation Strategies

📄 arXiv: 2604.18234v1 📥 PDF

作者: Lorenz Brehme, Thomas Ströhle, Ruth Breu

分类: cs.IR, cs.AI

发布日期: 2026-04-20

备注: 15 Pages, Accepted for publication at the SynIRgy Workshop, ECIR 2026 (48th European Conference on Information Retrieval)

🔗 代码/项目: GITHUB


💡 一句话要点

提出上下文感知检索评估(CARE),提升RAG系统多跳推理评估的准确性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 多跳推理 检索评估 大型语言模型 上下文感知 问答系统

📋 核心要点

  1. 现有RAG评估方法侧重于单上下文检索,忽略了多跳查询中上下文组合的重要性,导致评估结果不准确。
  2. 提出上下文感知检索评估(CARE)方法,利用LLM判断上下文在多跳推理中的相关性,从而更准确地评估检索器。
  3. 实验表明,CARE在多跳推理评估中优于现有方法,尤其是在参数量大、上下文窗口长的LLM中,提升效果显著。

📝 摘要(中文)

检索增强生成(RAG)通过外部知识增强大型语言模型(LLM),以提高问题回答的准确性。然而,评估RAG系统的研究仍然有限,特别是检索器组件。现有工作大多关注单上下文检索,而非多跳查询,在多跳查询中,单独的上下文可能显得无关紧要,但组合起来却至关重要。本研究使用HotPotQA、MuSiQue和SQuAD数据集来模拟RAG系统,并比较三种基于LLM的评估策略,包括我们提出的上下文感知检索评估(CARE)。我们的目标是更好地理解如何在RAG系统中有效地评估多跳推理。使用OpenAI、Meta和Google的LLM进行的实验表明,CARE始终优于现有的RAG系统中多跳推理的评估方法。性能提升在具有较大参数数量和较长上下文窗口的模型中最为明显,而单跳查询对上下文感知评估的敏感性最低。总的来说,结果突出了上下文感知评估在提高检索增强生成系统的可靠性和准确性方面的关键作用,尤其是在复杂的查询场景中。为了确保可重复性,我们在https://github.com/lorenzbrehme/CARE提供了完整的实验数据。

🔬 方法详解

问题定义:论文旨在解决RAG系统中检索器在多跳推理场景下的评估问题。现有评估方法主要关注单文档检索的准确性,无法有效评估多跳推理所需的上下文信息。这些方法无法识别单独看似无关但组合后对回答问题至关重要的文档,导致检索器性能评估不准确。

核心思路:论文的核心思路是利用大型语言模型(LLM)的推理能力,判断检索到的上下文信息对于回答多跳问题的重要性。通过让LLM评估每个上下文在整体推理链条中的作用,从而更准确地评估检索器的性能。这种上下文感知的评估方法能够捕捉到传统方法忽略的上下文依赖关系。

技术框架:整体框架包含以下几个主要步骤:1)使用HotPotQA、MuSiQue和SQuAD等数据集构建多跳问答场景;2)模拟RAG系统,包括问题编码器、检索器和答案生成器;3)使用不同的LLM作为评估器,包括OpenAI、Meta和Google的模型;4)比较三种评估策略:标准检索评估、基于LLM的检索评估以及提出的上下文感知检索评估(CARE)。CARE方法的核心在于利用LLM判断每个检索到的上下文对于回答问题的必要性。

关键创新:最重要的技术创新点在于提出了上下文感知检索评估(CARE)方法。与现有方法不同,CARE不仅关注检索到的文档是否包含答案,更关注文档在多跳推理链条中的作用。它利用LLM的推理能力,判断每个上下文对于回答问题的必要性,从而更准确地评估检索器的性能。这种方法能够捕捉到传统方法忽略的上下文依赖关系,更符合实际应用场景。

关键设计:CARE方法的关键设计在于如何利用LLM判断上下文的重要性。具体来说,论文设计了一种提示工程方法,引导LLM评估每个检索到的上下文对于回答问题的必要性。LLM被要求判断如果缺少某个上下文,是否会影响答案的准确性。通过这种方式,可以量化每个上下文的重要性,从而更准确地评估检索器的性能。此外,论文还探索了不同的LLM模型和提示策略对评估结果的影响,并进行了详细的实验分析。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CARE方法在多跳推理评估中始终优于现有方法。在HotPotQA数据集上,CARE方法相比传统方法提升了约5-10%的准确率。此外,实验还发现,参数量更大的LLM模型和更长的上下文窗口能够进一步提升CARE方法的性能。单跳查询对上下文感知评估的敏感性较低,表明CARE方法更适用于复杂的多跳推理场景。

🎯 应用场景

该研究成果可应用于各种需要多跳推理的RAG系统中,例如智能客服、知识图谱问答、复杂文档理解等。通过更准确地评估和优化检索器,可以显著提升RAG系统的性能和用户体验。未来,该方法可以扩展到更复杂的推理场景,并与其他评估指标相结合,构建更全面的RAG系统评估体系。

📄 摘要(原文)

Retrieval-augmented generation (RAG) enhances large language models (LLMs) with external knowledge to answer questions more accurately. However, research on evaluating RAG systems-particularly the retriever component-remains limited, as most existing work focuses on single-context retrieval rather than multi-hop queries, where individual contexts may appear irrelevant in isolation but are essential when combined. In this research, we use the HotPotQA, MuSiQue, and SQuAD datasets to simulate a RAG system and compare three LLM-as-judge evaluation strategies, including our proposed Context-Aware Retriever Evaluation (CARE). Our goal is to better understand how multi-hop reasoning can be most effectively evaluated in RAG systems. Experiments with LLMs from OpenAI, Meta, and Google demonstrate that CARE consistently outperforms existing methods for evaluating multi-hop reasoning in RAG systems. The performance gains are most pronounced in models with larger parameter counts and longer context windows, while single-hop queries show minimal sensitivity to context-aware evaluation. Overall, the results highlight the critical role of context-aware evaluation in improving the reliability and accuracy of retrieval-augmented generation systems, particularly in complex query scenarios. To ensure reproducibility, we provide the complete data of our experiments at https://github.com/lorenzbrehme/CARE.